🧠

重排序

📂 LLM ⏱ 1 min 91 words

重排序 Reranking 检索优化

重排序概述

重排序（Reranking）是对初始检索结果进行二次排序的技术。在RAG系统中，向量检索可能遗漏最优结果，重排序通过更精细的相关性评估，将最相关的结果排到前面，显著提升检索质量。

工作原理

两阶段检索

召回阶段：使用向量检索快速获取Top-K候选
重排序阶段：使用重排序模型精确排序Top-K结果

重排序模型

重排序模型通常是Cross-Encoder架构：

同时处理查询和文档
计算细粒度的相关性分数
比Bi-Encoder更精确但更慢

主流模型

商业模型

Cohere Rerank：高性能的重排序API
Voyage Reranker：Voyage AI的重排序服务
OpenAI Rerank：即将推出

开源模型

BGE Reranker：BAAI的开源重排序模型
Cohere Rerank开源版：轻量级开源版本
Cross-Encoder：HuggingFace的重排序框架
Jina Reranker：多语言重排序模型

应用场景

RAG增强

在向量检索后重排序：

提升Top-K的精度
修正语义偏差
改善生成质量

搜索优化

搜索引擎的结果重排：

综合多种信号
考虑时效性和权威性
个性化重排

文档摘要

选择最相关的内容：

从长文档中选择关键段落
按相关性分配权重
过滤低相关度内容

性能优化

缓存策略

缓存重排序结果
查询相似度检测复用

批量处理

批量计算提高效率
并行处理多个候选

动态Top-K

根据查询复杂度调整召回数量
简单查询少召回
复杂查询多召回

重排序模型选择

模型	速度	质量	适用场景
Cross-Encoder	慢	高	高精度需求
ColBERT	中	中高	平衡方案
LLM Reranker	慢	最高	极高精度需求
轻量级模型	快	中	低延迟需求

最佳实践

召回阶段确保足够的候选数量
重排序阶段控制计算成本
结合多种信号进行综合排序
定期评估重排序效果
根据业务需求平衡精度和延迟

重排序是提升RAG系统检索质量的关键环节，合理的重排序策略能够显著改善最终的生成效果。