一篇新的研究论文强调了当前检测大型语言模型基准污染方法的重大问题。该研究评估了包括前沿行业模型在内的27个模型,发现常见的统计工具在诸如分布偏移和基准与训练数据之间的规模差异等现实条件下会失效。这些工具在超过40%的评估中产生了不正确的结果,表明当前的检测方法对于实际基准审计是不可靠的,并且不能取代透明的数据来源。 AI
影响 当前检测基准污染的方法是不可靠的,需要新的方法来进行有效的LLM评估。
排序理由 学术论文,详细说明了当前AI评估方法的局限性。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →