BM25 · PulseAugur

开发者使用新工具将 Claude 网络研究成本降低 18 倍

一位开发者创建了一个名为 Webify 的工具，该工具显著减少了 Claude 网络研究功能的 token 使用量。Webify 将 HTML 解析为 DOM 图，使用 BM25 和 BFS 遍历识别相关部分，并将这些部分返回给 Claude，而不是整个网页。这种方法将 token 消耗量从数千个大幅削减至每次查询通常 80-300 个 token，同时在基准测试中保持了高准确性。该开源工具设计用于轻松安装和集成到支持 MCP 的各种编码环境中。

TOOL · CL_130893 · Jul 7 · 21:53

瑞士合规工具开发者分享反幻觉技术

Canton Compliance Hub 的创建者分享了其开发过程中的见解，该工具旨在回答瑞士企业合规问题。该系统优先考虑准确性和引用以防止幻觉，采用双层检索系统，结合了精炼的“事实卡片”和原始文档片段。它还实施了结构性保障措施，例如要求所有事实声明都带有内联引用，并对数字数据进行单独的验证，以确保在错误信息可能导致重大财务后果的领域中的可靠性。

RESEARCH · CL_131684 · Jul 7 · 00:00

新理论解释晚期交互检索模型，引入 Signed MaxSim

研究人员从理论上量化了晚期交互检索模型的表征能力，特别是那些使用 MaxSim 相似度函数的模型。研究表明，MaxSim 可以精确复制非负稀疏向量之间的内积，并引入了 Signed MaxSim，这是一个能够复制任何实值内积的扩展。这些进展为晚期交互模型的强大实证性能提供了理论基础，并显示了它们在检索任务中超越标准检索方法的潜力，尤其是在涉及否定等复杂查询的任务中。

TOOL · CL_126585 · Jul 5 · 18:42

通过混合搜索和性能指标提高 RAG 的准确性

本文探讨了提高检索增强生成 (RAG) 系统准确性的技术，重点关注改进相关块的检索。文章详细介绍了混合搜索等方法，该方法将向量相似性与 BM25 等关键字匹配相结合，以及使用元数据过滤来缩小搜索范围。文章还讨论了分块策略的重要性，并介绍了 recall@k、precision@k、MRR 和 nDCG 等关键指标，用于对 RAG 性能进行量化评估。

RESEARCH · CL_128892 · Jul 5 · 02:52

新研究探索针对不断变化的科学文档集合的时间检索

一篇新论文使用 LongEval-Sci 基准，分析了针对随时间增长的科学文档集合的时间检索。研究发现，时间全文检索方法，特别是那些包含引用特征的方法，取得了最佳的官方结果。内部诊断显示，虽然全文检索是一个坚实的基础，但时间整合可以提高纵向有效性，尽管引用证据需要进一步完善。

TOOL · CL_129587 · Jul 1 · 16:44

Trie数据结构将IR流水线实验速度提升26%

研究人员开发了一种新颖的方法，使用Trie数据结构来优化复杂信息检索（IR）流水线的评估。这种方法在一个新论文中进行了详细介绍，旨在降低比较不同流水线配置的计算成本。在MSMARCO v2数据集上使用BM25、MonoT5和DuoT5等检索器进行的实证测试表明，实验时间缩短了26%。该研究还包括了一项涉及研究生的用户研究结果。

TOOL · CL_116177 · Jun 29 · 10:55

开源代理内存运行时使用 Markdown，结合搜索方法

EverOS 是一个新颖的开源代理内存运行时，它利用 Markdown 文件进行存储，不同于传统的向量数据库。它通过结合 BM25 关键字和向量搜索来增强检索。该系统旨在自主地将成功的任务提炼成可重用的技能，使代理能够在多个会话中改进和保留知识。

TOOL · CL_117099 · Jun 28 · 23:46

新研究提出本地优先信息检索以增强文档搜索隐私性

一篇新研究论文提出了一种信息检索系统的“本地优先信息检索”设计理念，优先在设备上进行索引、模型和推理，以增强隐私性和控制力。实验表明，密集检索模型可以在消费级硬件上处理多达10万份文档并保持高准确性，并且一个7B的本地语言模型表现与云端系统相当。研究强调，主要的权衡在于可搜索内容的范围而非质量。

TOOL · CL_112566 · Jun 26 · 15:29

研究发现：RAG 系统中的过时文档带来重大风险

埃默里大学和 IBM Research 进行的一项最新研究调查了过时文档对检索增强生成（RAG）系统的影响。实验表明，RAG 系统索引中的过时信息，类似于对抗性投毒，会导致模型响应不准确。该研究测试了三种检索配置：带有 HNSW 的密集向量检索、BM25 稀疏检索以及受管选择器。受管选择器根据资格和版本对文档进行预过滤，通过率为 97%，在处理过时数据和提供更强大的防御措施以抵御潜在的投毒攻击方面，其性能显著优于其他方法。

TOOL · CL_115148 · Jun 26 · 11:30

新方法增强了密集嵌入排序器的可解释性

研究人员开发了一种名为ChunkGroupSHAP的新方法，以提高信息检索中使用的密集嵌入排序器的可解释性。该技术跨文档对语义相关的文本块进行聚类以创建共享特征，解决了词级别解释与密集表示之间的不匹配问题。在MS MARCO和FinQA等数据集上的实验表明，最佳解释粒度取决于排序器和语料库，这表明需要与表示粒度和语料库结构都保持一致的特征单元。

TOOL · CL_109904 · Jun 25 · 04:00

研究发现：多样例上下文学习可提升低资源语言翻译能力

研究人员对低资源语言的机器翻译进行了多样例上下文学习（ICL）的实证研究。研究结果表明，增加ICL中的示例数量通常能提高性能。研究还表明，使用基于BM25的检索来选择示例可以显著提高数据效率，从而用更少的示例获得可比的结果。此外，研究表明ICL与微调技术结合使用可以带来额外的好处。

TOOL · CL_109471 · Jun 24 · 00:12

自适应重排序通过高效路由查询来降低信息检索延迟

研究人员推出了一种名为自适应重排序（Adaptive Re-Ranking）的框架，旨在优化信息检索系统的计算成本和延迟。该方法根据查询的复杂性进行路由，采用不同的重排序模型——从稀疏检索（BM25）到重型神经重排序（BGE-v2-m3）——以避免对简单查询进行不必要的处理。该方法在各种数据集上展示了中位数和平均延迟的显著降低，并取得了具有竞争力的nDCG@10分数。

TOOL · CL_103227 · Jun 22 · 03:56

构建结合语义搜索和关键词搜索的混合 RAG 系统

本文详细介绍了如何构建一个混合检索增强生成（RAG）系统，该系统结合了语义搜索和关键词搜索的优点。它解决了单一模式检索的局限性，即稠密向量搜索擅长理解含义但难以进行精确匹配，而像 BM25 这样的关键词搜索虽然精确但缺乏语义理解。本教程演示了如何使用 FAISS 进行稠密搜索，BM25 进行关键词搜索，倒数排名融合（Reciprocal Rank Fusion）来合并结果，以及 LangGraph 进行编排，最终旨在改进文档问答应用。

COMMENTARY · CL_103119 · Jun 22 · 00:23

AI代理因搜索索引分布缺陷而失败，而非提示问题

AI代理中一个常见的问题是，由于底层搜索索引的问题，其搜索结果表面上看起来正确，但却导致事实性错误答案。这不是一个提示问题，而是一个分布问题，索引本身是一组冻结的过往相关性判断，而不是语义真相的体现。像BEIR和MTEB这样的标准检索基准可能会加剧这个问题，它们奖励检索与历史相关性匹配的文档，即使代理错误地解释了它们，导致基准测试得分高但实际查询表现不佳。

RESEARCH · CL_105011 · Jun 22 · 00:00

HAKARI-Bench 为检索模型提供轻量级评估 · 跟踪 2 个来源

研究人员推出了 HAKARI-Bench，这是一个轻量级基准，旨在简化检索增强生成和语义搜索的检索架构和效率设置的评估。这个新基准将现有的庞大检索套件重构为更小的数据集，能够对各种检索家族及其效率变体（如降维和量化）进行快速、与模型无关的比较。HAKARI-Bench 表现出高保真度，以高于 0.97 的 Spearman 相关性重现了大型基准的排名，使其成为开发过程中模型选择和回归检测的宝贵工具。

TOOL · CL_105013 · Jun 21 · 22:09

VISTA Architect AI系统将LLM与EHR集成以合成医疗数据

研究人员开发了VISTA Architect，一个旨在将大型语言模型与电子健康记录（EHR）集成的新型AI系统。该系统将临床数据转化为知识图谱，创建患者事件的综合时间线。在斯坦福大学医学系演示的VISTA Architect在重建肿瘤委员会的患者病史方面达到了96.4%的准确率，优于现有的检索增强生成方法。

TOOL · CL_104614 · Jun 20 · 17:04

新颖性感知代理检索系统增强科学文献检索

研究人员开发了一种新颖性感知研究代理（Novelty-Aware Research Agent），这是一种代理检索系统，旨在通过提供结构化的多步推理来进行科学文献检索，超越标准的RAG。该系统旨在帮助研究人员不仅理解相关论文，还理解它们之间的关系、重叠、差异，并识别问题-方法组合中的空白。该代理利用六个组件，包括一个ReAct风格的检索循环和一个三步比较代理，以生成结构化的比较产物，如贡献记录和问题x方法空白矩阵。在100篇论文语料库…

TOOL · CL_104621 · Jun 19 · 15:50

本地 7B 模型研究解构 agentic RAG 以用于多跳问答

研究人员对 agentic 检索增强生成 (RAG) 系统进行了消融研究，特别关注使用本地 7B 参数模型 Qwen2.5-7B-Instruct 进行多跳问答。研究发现，使用倒数排名融合 (reciprocal rank fusion) 的固定混合检索方法优于自适应路由 (adaptive routing)，并且两次检索迭代捕获了大部分性能提升，更深的循环收益递减。查询分解 (query decomposition) 和交叉编码器重…

TOOL · CL_98656 · Jun 18 · 11:43

开源堆栈解决了 PostgreSQL AI 部署挑战

pgEdge 的 Mike Josephson 讨论了在 PostgreSQL 中部署 AI 应用的挑战，并强调目前大多数应用仍处于实验阶段。他详细介绍了一个开源堆栈，包括 MCP Server 和 RAG Server，旨在解决安全、响应准确性和令牌效率等生产问题。演示展示了使用 Ollama 和 Gemma 4 3B 的完全本地设置，确保了数据隐私。

RESEARCH · CL_106736 · Jun 18 · 11:38

流式RAG技术通过早期稳定查询意图来隐藏工具延迟

一篇新的arXiv论文研究了流式检索增强生成（Streaming RAG）技术，该技术通过在用户输入的同时并行发出检索查询来隐藏工具延迟。研究人员表征了“工具意图稳定”，即推测性查询的检索收敛于正确结果的点，发现它通常在输入流的早期发生。这种早期稳定使得很大一部分工具延迟可以被隐藏，并且密集检索器复制证实了这种效果并非特定于像BM25这样的词汇搜索方法。