PulseAugur
实时 14:08:17
English(EN) Improving BM25 Code Retrieval Under Fixed Generic Tokenization: Adaptive q-Log Odds as a Drop-In BM25 Fix

自适应 q-log odds 改进 BM25 代码检索

研究人员开发了一种名为自适应 q-log odds 的新方法,以提高 BM25(一种流行的搜索算法)在代码检索任务上的性能。该技术通过调整对唯一标识符的加权方式,修改了 BM25 的底层数学公式,以更好地区分相似的代码函数。在 Go 代码数据集上进行测试时,新方法显著提高了检索准确性,将归一化折损累计增益(NDCG@10)提高了近 90%。研究人员还发现,此修复方案的有效性取决于分词过程,并且对通用文本检索的影响很小。 AI

影响 增强了代码搜索能力,有望提高开发人员的生产力以及检索增强编码系统的准确性。

排序理由 该集群包含一篇学术论文,详细介绍了一种改进特定算法的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

自适应 q-log odds 改进 BM25 代码检索

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Oktay Goktas ·

    Improving BM25 Code Retrieval Under Fixed Generic Tokenization: Adaptive q-Log Odds as a Drop-In BM25 Fix

    In retrieval-augmented coding, failures often begin when the relevant file is absent from the retrieved context. Under frozen generic tokenization, where a BM25 index has been built by a search system whose analyzer the practitioner does not control, this failure is routine: BM25…