Cross-Encoder
PulseAugur coverage of Cross-Encoder — every cluster mentioning Cross-Encoder across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
RAG Rerank 通过优先排序相关文档来提高 LLM 的准确性
一种称为 RAG Rerank 的新技术通过增加一个重排步骤,显著提高了检索增强生成(RAG)系统的准确性。标准的 RAG 根据向量相似性检索文档,这可能导致不相关文档被优先排序。RAG Rerank 使用交叉编码器模型重新评估一组精选文档的相关性,确保将最相关的信息传递给语言模型。这种方法以略微增加的延迟和成本为代价提高了准确性,使其对于答案错误成本高昂的应用特别有价值。
-
新AI系统利用语义检索增强职位推荐
研究人员开发了一个新的职位推荐系统,该系统结合了基于关键字和语义检索技术来提高准确性。该系统利用职位名称、公司和地点等结构化元数据,无需完整的职位描述或用户历史记录。在超过31,000个LinkedIn职位发布的数据集上进行的实验表明,混合方法在Precision@10得分上达到了0.8032,在nDCG@10得分上达到了0.9496,并且通过一个Cross-Encoder重排组件进一步得到了改进。
-
Hugging Face 发布 Ettin Reranker 模型以改进搜索
Hugging Face 发布了一个新的六个 Ettin Reranker 模型系列,这些模型构建在 Ettin ModernBERT 编码器之上。这些模型在其各自的尺寸下提供了最先进的性能,并专为信息检索系统中的检索后重排模式而设计。此次发布包括模型、它们的训练数据以及完整的训练配方,使用户能够集成它们,甚至训练自己的重排模型。
-
修复本地 LLM 知识库需要更好的检索,而非新模型
设置本地 LLM 知识库通常会产生糟糕的结果,这是由于检索管道中的问题,而非模型本身。常见问题包括不充分的分块,导致句子被分割或不相关的内容被分组;使用未能捕捉特定领域语义细微差别的嵌入模型;以及检索到的块太少,无法重建必要的上下文。解决方案包括使用具有重叠和语义边界的递归分割器以获得更好的分块;测试各种嵌入模型,如 BAAI/bge-base-en-v1.5 或 intfloat/e5-base-v2,以找到适合数据的模型;以及增加…