跳转到主要内容
🧠

嵌入模型

📂 LLM ⏱ 1 min 76 words

嵌入模型概述

嵌入模型(Embedding Model)是将文本转换为稠密向量表示的神经网络模型。这些向量捕捉了文本的语义信息,使得语义相似的文本在向量空间中距离较近。嵌入模型是语义搜索、RAG、聚类等应用的核心组件。

工作原理

编码过程

  1. 输入文本经过分词
  2. 通过Transformer编码器处理
  3. 使用池化策略(如[CLS]或平均池化)生成固定维度的向量
  4. 向量通常为768-4096维

训练目标

  • 对比学习:拉近相似文本对,推远不相似对
  • 三元组损失:锚点-正样本-负样本的相对距离
  • InfoNCE损失:批量对比学习的目标函数

主流模型

OpenAI系列

  • text-embedding-3-small:高性价比方案
  • text-embedding-3-large:最高性能方案
  • 支持维度缩减,灵活调整精度

开源模型

  • BGE系列:BAAI的开源嵌入模型,中英文表现优秀
  • E5系列:微软的嵌入模型系列
  • GTE系列:阿里巴巴的通用嵌入模型
  • Jina Embeddings:多语言嵌入模型

维度与性能

模型 维度 性能等级 特点
OpenAI Large 3072 顶级 商业API
BGE-large 1024 优秀 开源
E5-large 1024 优秀 开源
GTE-large 1024 优秀 开源

应用场景

语义搜索

将查询和文档都编码为向量,通过向量相似度进行检索。

RAG(检索增强生成)

作为RAG管道的第一步,检索相关文档增强LLM生成。

文本聚类

将相似文档聚类到一起,用于主题发现和组织。

推荐系统

基于文本相似度进行内容推荐。

重复检测

识别近似重复的内容。

性能优化

批量编码

一次编码多条文本提升效率。

维度缩减

使用Matryoshka表示学习,支持灵活的维度选择。

缓存

缓存常见查询的嵌入向量。

量化

对嵌入向量进行量化降低存储成本。

选择建议

  • 考虑性能和成本的平衡
  • 评估在目标领域的表现
  • 考虑部署环境和延迟要求
  • 关注模型的许可条款

嵌入模型是构建智能检索和理解系统的基础,选择合适的嵌入模型对应用效果有决定性影响。