← 返回首页
🧠

混合搜索

📂 llm ⏱ 1 min 114 words

混合搜索概述

混合搜索(Hybrid Search)是将多种检索方法结合使用的技术,通常融合关键词搜索和语义搜索的优势。通过综合不同检索方法的结果,混合搜索能够提供比单一方法更好的检索效果。

检索方法

关键词搜索

基于词汇匹配的检索方法:

语义搜索

基于向量相似度的检索方法:

混合策略

分数融合

将两种检索方法的分数合并:

RRF(Reciprocal Rank Fusion)

$$\text{RRF}(d) = \sum_{i} \frac{1}{k + r_i(d)}$$

其中 $r_i(d)$ 是文档d在第i种检索方法中的排名。

加权线性组合

$$\text{score}(d) = \alpha \cdot \text{keyword_score}(d) + \beta \cdot \text{semantic_score}(d)$$

结果合并

合并两种方法的Top-K结果后重新排序。

动态权重

根据查询特征动态调整两种方法的权重:

实现架构

并行检索

同时执行关键词和语义检索:

级联检索

先粗排后精排:

技术栈

平台 支持的混合搜索
Elasticsearch BM25 + kNN
Weaviate 关键词 + 向量
Qdrant 全文检索 + 向量
Pinecone 稀疏 + 稠密
pgvector SQL + 向量

应用场景

电商搜索

商品搜索需要精确匹配和语义理解:

知识库问答

企业知识库检索:

文档检索

法律、医学等专业文档:

评估方法

最佳实践

  1. 从简单的RRF融合开始
  2. 根据数据特点调整融合权重
  3. 监控检索效果持续优化
  4. 考虑计算成本和延迟影响
  5. 针对不同场景定制混合策略

混合搜索结合了关键词和语义检索的优势,是当前最推荐的检索策略。