English(EN) AI Evaluation Should Require Standardized Item-Level Data Releases

论文认为AI评估需要标准化的项目级数据

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

一份新的立场文件主张在AI评估中标准化项目级数据发布，以提高透明度和可复现性。作者认为，当前的汇总分数掩盖了项目选择不明确和构建错位等关键问题，导致能力声明夸大和信任错位。为解决此问题，他们提议将项目级数据视为核心基础设施，并推出了OpenEval，一个包含大量基准测试中1000万个响应的存档，旨在促进对AI评估进行更深入的分析和验证。 AI

影响标准化AI评估数据可能带来更值得信赖的基准测试结果，并为部署系统的决策提供更充分的信息。

排序理由该集群包含一篇提出AI评估新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

OpenEval

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Han Jiang, Susu Zhang, Dongyao Zhu, Yuzhuo Bai, Sang T. Truong, Xiaoyuan Yi, Sanmi Koyejo, Xing Xie, Ziang Xiao · 2026-05-25 04:00

AI Evaluation Should Require Standardized Item-Level Data Releases

arXiv:2604.03244v2 Announce Type: replace Abstract: This position paper argues that standardized item-level benchmark data should become the default infrastructure for AI evaluation. Current evaluations suffer from underspecified item selection, construct misalignment, and poor g…

报道来源 [1]

AI Evaluation Should Require Standardized Item-Level Data Releases

相关实体

相关话题