English(EN) The Reliability Gap in Benchmark Auditing: Distribution Shift and Scale as Failure Modes of Contamination Detection

AI基准审计方法在实际条件下失效

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

一篇新的研究论文强调了当前检测大型语言模型基准污染方法的重大问题。该研究评估了包括前沿行业模型在内的27个模型，发现常见的统计工具在诸如分布偏移和基准与训练数据之间的规模差异等现实条件下会失效。这些工具在超过40%的评估中产生了不正确的结果，表明当前的检测方法对于实际基准审计是不可靠的，并且不能取代透明的数据来源。 AI

影响当前检测基准污染的方法是不可靠的，需要新的方法来进行有效的LLM评估。

排序理由学术论文，详细说明了当前AI评估方法的局限性。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Wojciech Zarzecki, Jan Dubi\'nski, Sebastian Cygert · 2026-06-03 04:00

基准审计中的可靠性差距：分布偏移和规模作为污染检测的失效模式

arXiv:2606.03305v1 Announce Type: new Abstract: Benchmark contamination, where evaluation examples appear in a model's training data, threatens the validity of LLM assessment. Statistical tools for detecting training-data membership exist, but have been validated almost exclusive…

报道来源 [1]

基准审计中的可靠性差距：分布偏移和规模作为污染检测的失效模式

相关实体

相关话题