🧠

嵌入模型

📂 llm ⏱ 1 min 76 words

嵌入模型概述

嵌入模型（Embedding Model）是将文本转换为稠密向量表示的神经网络模型。这些向量捕捉了文本的语义信息，使得语义相似的文本在向量空间中距离较近。嵌入模型是语义搜索、RAG、聚类等应用的核心组件。

工作原理

编码过程

输入文本经过分词
通过Transformer编码器处理
使用池化策略（如[CLS]或平均池化）生成固定维度的向量
向量通常为768-4096维

训练目标

对比学习：拉近相似文本对，推远不相似对
三元组损失：锚点-正样本-负样本的相对距离
InfoNCE损失：批量对比学习的目标函数

主流模型

OpenAI系列

text-embedding-3-small：高性价比方案
text-embedding-3-large：最高性能方案
支持维度缩减，灵活调整精度

开源模型

BGE系列：BAAI的开源嵌入模型，中英文表现优秀
E5系列：微软的嵌入模型系列
GTE系列：阿里巴巴的通用嵌入模型
Jina Embeddings：多语言嵌入模型

维度与性能

模型	维度	性能等级	特点
OpenAI Large	3072	顶级	商业API
BGE-large	1024	优秀	开源
E5-large	1024	优秀	开源
GTE-large	1024	优秀	开源

应用场景

语义搜索

将查询和文档都编码为向量，通过向量相似度进行检索。

RAG（检索增强生成）

作为RAG管道的第一步，检索相关文档增强LLM生成。

文本聚类

将相似文档聚类到一起，用于主题发现和组织。

重复检测

识别近似重复的内容。

性能优化

批量编码

一次编码多条文本提升效率。

维度缩减

使用Matryoshka表示学习，支持灵活的维度选择。

缓存

缓存常见查询的嵌入向量。

量化

对嵌入向量进行量化降低存储成本。

选择建议

考虑性能和成本的平衡
评估在目标领域的表现
考虑部署环境和延迟要求
关注模型的许可条款

嵌入模型是构建智能检索和理解系统的基础，选择合适的嵌入模型对应用效果有决定性影响。