Beir · PulseAugur

KaLM-Reranker-V1：高效文档重排模型发布

研究人员推出 KaLM-Reranker-V1，这是一种新颖的文档重排模型，专为检索系统的效率和灵活性而设计。该模型将查询和文档的计算解耦，从而实现更快的处理速度，同时通过交叉注意力保持强大的相关性建模。KaLM-Reranker-V1 提供 Nano、Small 和 Large 版本，参数量分别为 0.27B、1B 和 4B。在 BEIR 和 MIRACL 等基准数据集上的实验表明，KaLM-Reranker-V1 取得了最先进的性…

TOOL · CL_111511 · Jun 24 · 23:03

TileMaxSim内核将GPU检索模型速度提升220倍

研究人员开发了TileMaxSim，这是一种新的面向IO的GPU内核，旨在显著加速多向量检索模型（如ColBERT）中使用的MaxSim评分过程。现有实现效率低下，仅利用了可用GPU带宽的一小部分。TileMaxSim通过采用多查询SRAM分块、维度分块和融合乘积量化评分来解决此问题，在NVIDIA H100 GPU上实现了高达80.2%的峰值HBM带宽。这带来了显著的速度提升，能够实现每秒对8200万份文档进行评分，并大大降低了检索任务的延迟。

RESEARCH · CL_107693 · Jun 23 · 00:00

DREAM论文提出使用自回归建模进行密集检索训练

研究人员开发了DREAM（Dense Retrieval Embeddings via Autoregressive Modeling），一种新颖的训练密集检索系统的方法。与依赖昂贵标注数据的传统方法不同，DREAM利用大型语言模型（LLMs）的下一个词预测目标来监督训练过程。通过将查询-文档相似度分数注入LLM的注意力头，DREAM使预测损失能够为检索器提供梯度。在检索基准上的评估表明，DREAM在各种模型规模下始终优于现有基线。

COMMENTARY · CL_103119 · Jun 22 · 00:23

AI代理因搜索索引分布缺陷而失败，而非提示问题

AI代理中一个常见的问题是，由于底层搜索索引的问题，其搜索结果表面上看起来正确，但却导致事实性错误答案。这不是一个提示问题，而是一个分布问题，索引本身是一组冻结的过往相关性判断，而不是语义真相的体现。像BEIR和MTEB这样的标准检索基准可能会加剧这个问题，它们奖励检索与历史相关性匹配的文档，即使代理错误地解释了它们，导致基准测试得分高但实际查询表现不佳。

RESEARCH · CL_105028 · Jun 22 · 00:00

KaLM-Reranker-V1：高效文档重排模型发布

研究人员推出 KaLM-Reranker-V1，这是一种新颖的重排模型，专为大规模检索系统的效率而设计。该模型使用具有 Matryoshka 嵌入池化和交叉注意力的编码器-解码器架构来解耦查询和段落的计算。KaLM-Reranker-V1 有三种尺寸：Nano（0.27B 参数）、Small（1B 参数）和 Large（4B 参数）。在 BEIR、MIRACL 和 LMEB 等基准测试上的实验表明，KaLM-Reranker-V1 取…

RESEARCH · CL_105011 · Jun 22 · 00:00

HAKARI-Bench 为检索模型提供轻量级评估 · 跟踪 2 个来源

研究人员推出了 HAKARI-Bench，这是一个轻量级基准，旨在简化检索增强生成和语义搜索的检索架构和效率设置的评估。这个新基准将现有的庞大检索套件重构为更小的数据集，能够对各种检索家族及其效率变体（如降维和量化）进行快速、与模型无关的比较。HAKARI-Bench 表现出高保真度，以高于 0.97 的 Spearman 相关性重现了大型基准的排名，使其成为开发过程中模型选择和回归检测的宝贵工具。

TOOL · CL_97771 · Jun 17 · 13:06

新型多语言重排模型高效训练，适用于多样化任务

研究人员开发了Querit-Reranker，这是一系列新的多语言交叉编码器重排模型，旨在无需大量标记数据即可高效适应各种排序任务。这些模型使用一种利用合成查询挖掘和教师分数作为软标签的流水线进行训练，并且可以合并检查点以创建单个可部署模型。Querit-Reranker-A0.4B在BEIR和MIRACL等基准测试中表现出显著的改进，而Querit-Reranker-4B在公开可用的模型中取得了最先进的性能。这两个模型都可以在Hug…

RESEARCH · CL_90782 · Jun 11 · 20:52

新的ADORE框架通过迭代反馈改进LLM查询扩展

研究人员推出了一种名为ADORE的迭代框架，旨在增强基于大型语言模型（LLM）的信息检索查询扩展。与可能导致检索漂移的生成驱动方法不同，ADORE使用检索结果作为后续扩展轮次的反馈。此迭代过程包括由LLM生成段落、检索器评估语料库响应以及相关性评估器根据原始查询判断检索到的文档。ADORE在包括TREC Deep Learning、BEIR和BRIGHT在内的多个基准测试中展示了显著的性能提升，优于BM25等传统方法和之前的查询扩展技术。

TOOL · CL_84336 · Jun 10 · 06:23

CompRank框架提升LLM重排效率

研究人员开发了CompRank，一个旨在提高大型语言模型（LLM）重排器在信息检索任务中计算效率的新框架。CompRank通过令牌级压缩和无解码评分方法减少冗余计算来实现这一目标。实验表明，CompRank在保持高性能的同时显著加快了重排速度，使得基于LLM的重排能够更有效地处理长候选列表。

RESEARCH · CL_81956 · Jun 9 · 09:18

STORM框架增强了检索的词汇查询扩展

研究人员开发了STORM，一个用于词汇查询扩展的自监督框架，以改进信息检索。该方法使用奖励引导的束搜索来优化令牌生成，使其在检索任务中更有效。STORM提供了一种具有竞争力的、轻量级的替代密集神经网络检索系统的方法，在各种基准和语言上都取得了强劲的性能。

RESEARCH · CL_74430 · Jun 5 · 00:00

新的ECI方法无需训练即可对密集检索的难例负样本进行排名

研究人员开发了一种新的无需训练的方法，称为有效对比信息（ECI），用于评估密集检索系统的难例负样本来源。该技术使用冻结的嵌入来对候选负样本进行排名，绕过了微调和下游评估的需要。ECI在MS MARCO和BEIR等基准测试中表现强劲，能有效地为检索模型识别最佳负样本来源。

RESEARCH · CL_62875 · May 31 · 07:26

新方法通过自适应和长上下文AI增强搜索结果重排

研究人员开发了新的方法来改进搜索结果的重排，特别是在零资源场景下，传统监督训练不可行。一种方法DART，通过初始检索中的伪阳性和伪阴性示例在推理时自适应评分函数，以最小的延迟提高性能。另一种方法利用长上下文语言模型一次性处理整个候选段落集，从而实现更有效和高效的重排。第三种技术利用小型语言模型特定层的注意力分数来估计段落-查询相关性，在LoCoMo等基准测试上取得了最先进的成果。

RESEARCH · CL_48858 · May 22 · 13:25

Google Embeddings 2 在检索基准测试中领先但速度较慢

一篇新论文对 Google Embeddings 2 (GE2) 与多个开源模型在多语言密集检索和 RAG 系统上的表现进行了基准测试。GE2 在包括 BEIR 和意大利语 RAG 语料库在内的多项任务中取得了最佳性能，但与本地模型相比，其延迟显著更高。Multilingual-E5-large (mE5-L) 在意大利语检索方面提供了相当的性能，但延迟低得多，使其成为对响应时间有严格要求的应用的更实用选择。

RESEARCH · CL_41792 · May 20 · 04:35

新的DIVE方法压缩LLM嵌入以实现高效向量搜索

研究人员开发了一种新的方法DIVE，用于压缩大型语言模型的高维嵌入，以降低向量搜索系统的存储和计算成本。DIVE采用自限制三元组损失来防止预训练嵌入的过度扰动，并采用对比损失，将嵌入的多个投影视为隐式视图。该方法旨在克服现有压缩方法中常见的过拟合问题，尤其是在标记数据稀缺的情况下，并在多个数据集上展示了优于先前技术的性能。

TOOL · CL_27587 · May 10 · 15:48

RAG系统中的去重技术在不损失质量的情况下减小了上下文大小

一篇新的预印本详细介绍了检索增强生成（RAG）系统中字节精确去重的实证分析。研究发现，在学术、企业和对话式AI用例中，上下文显著减少，多轮对话减少了80.34%。至关重要的是，此去重过程没有引入可衡量的质量下降，这得到了涉及Google Gemini、Anthropic Claude、Meta Llama和OpenAI GPT模型的跨供应商评估的验证，所有模型均达到了严格的质量阈值。

RESEARCH · CL_15854 · May 4 · 14:45

新的RAG方法旨在提高AI事实准确性并减少幻觉

2026年5月在arXiv上发表的几篇研究论文介绍了增强检索增强生成（RAG）系统的新颖方法。这些方法侧重于通过解决嘈杂或冗余证据、显式差距感知修复的需求以及设计可验证的长期响应奖励机制的挑战来提高RAG的鲁棒性和可信度。技术包括在LLM自身空间内的潜在抽象、基于生成器置信度变化的置信度感知重新排序以及反映答案不确定性的确定性增强RAG系统。

RESEARCH · CL_06660 · Apr 28 · 04:00

Rabtriever模型高效检索理由，降低LLM计算成本

研究人员开发了一种新颖的方法Rabtriever，以提高基于理由的信息检索的效率。该方法采用生成式重排器的策略内蒸馏，灵感来自联合嵌入预测架构（JEPA）。Rabtriever通过将传统方法的二次复杂度优化为线性复杂度，显著降低了计算成本，同时在各种检索任务上保持了可比的准确性。

RESEARCH · CL_13526 · Apr 28 · 02:43

UnIte方法通过不确定性采样改进信息检索域自适应

研究人员开发了一种名为UnIte的新方法，用于信息检索中的无监督域自适应。该技术通过策略性地选择文档进行伪查询生成，提高了神经检索器在新领域的泛化能力。UnIte侧重于模型不确定性，过滤掉具有高随机不确定性的文档，并优先处理具有高认知不确定性的文档，以最大限度地提高学习效率。实验表明，在nDCG@10得分方面有了显著提高，尤其是在训练样本量较小的情况下。

RESEARCH · CL_11455 · Apr 24 · 03:11

LLM驱动的查询重构的复现性研究

两篇新研究论文探讨了大型语言模型（LLMs）在信息检索中的应用和效率。第一篇论文是一项复现性研究，评估了十种基于LLM的查询重构方法在各种检索范式和LLM规模下的表现，发现收益高度依赖于检索方法，并且更大的模型不一定表现更好。第二篇论文介绍了ResRank，一个统一的框架，它将段落压缩成单一的嵌入向量，用于高效的列表重排序，解决了将全文输入LLM相关的延迟瓶颈和质量下降问题。