English(EN) Beyond Retrieval: A Multitask Benchmark and Model for Code Search

新的CoREB基准和重排器在检索之外改进代码搜索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-06 08:05

研究人员推出了CoREB，这是一个旨在超越简单检索来评估代码搜索系统的新基准。该基准通过在五种编程语言中使用反事实重写的题目，解决了现有数据集中数据污染和标签噪声等局限性。在CoREB上的实验表明，虽然代码专用嵌入在代码到代码检索方面表现出色，但简短的关键词查询会显著降低所有模型的性能。该研究还强调了现成重排器的任务特定性，并引入了一个经过微调的重排器，该重排器在所有评估的任务中都显示出持续的改进。 AI

影响引入了一个新的基准和模型来改进代码搜索能力，可能影响开发者的生产力。

排序理由这是一篇介绍代码搜索新基准和模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

LiveCodeBench

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Hang Yu · 2026-05-06 08:05

超越检索：代码搜索的多任务基准和模型

Code search has usually been evaluated as first-stage retrieval, even though production systems rely on broader pipelines with reranking and developer-style queries. Existing benchmarks also suffer from data contamination, label noise, and degenerate binary relevance. In this pap…

报道来源 [1]

超越检索：代码搜索的多任务基准和模型

相关实体

相关话题