← 返回首页
🧠

文本嵌入

📂 llm ⏱ 1 min 95 words

文本嵌入概述

文本嵌入(Text Embedding)是将自然语言文本映射到稠密向量空间的技术。在这个空间中,语义相似的文本距离较近,语义不同的文本距离较远。文本嵌入是现代NLP和信息检索的基石。

技术演进

词向量时代

上下文嵌入

密集检索嵌入

嵌入方法

平均池化

对所有token的表示取平均:

CLS token

使用[CLS]标记的输出:

注意力加权

使用注意力机制加权聚合:

嵌入空间特性

语义聚类

语义相似的文本自然聚类:

线性关系

嵌入空间中存在线性语义关系:

各向异性

原始嵌入可能各向异性:

相似度计算

余弦相似度

$$\text{sim}(a, b) = \frac{a \cdot b}{|a| |b|}$$

内积

$$\text{sim}(a, b) = a \cdot b$$

欧氏距离

$$d(a, b) = |a - b|_2$$

质量评估

实践建议

  1. 选择适合任务的嵌入模型
  2. 对长文本进行分段处理
  3. 使用向量数据库高效存储和检索
  4. 定期更新嵌入以适应数据变化
  5. 监控嵌入质量指标

文本嵌入技术的持续进步正在推动语义搜索和RAG应用的发展。