PulseAugur
实时 13:09:57
English(EN) AI Evaluation Should Require Standardized Item-Level Data Releases

论文认为AI评估需要标准化的项目级数据

一份新的立场文件主张在AI评估中标准化项目级数据发布,以提高透明度和可复现性。作者认为,当前的汇总分数掩盖了项目选择不明确和构建错位等关键问题,导致能力声明夸大和信任错位。为解决此问题,他们提议将项目级数据视为核心基础设施,并推出了OpenEval,一个包含大量基准测试中1000万个响应的存档,旨在促进对AI评估进行更深入的分析和验证。 AI

影响 标准化AI评估数据可能带来更值得信赖的基准测试结果,并为部署系统的决策提供更充分的信息。

排序理由 该集群包含一篇提出AI评估新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Han Jiang, Susu Zhang, Dongyao Zhu, Yuzhuo Bai, Sang T. Truong, Xiaoyuan Yi, Sanmi Koyejo, Xing Xie, Ziang Xiao ·

    AI Evaluation Should Require Standardized Item-Level Data Releases

    arXiv:2604.03244v2 Announce Type: replace Abstract: This position paper argues that standardized item-level benchmark data should become the default infrastructure for AI evaluation. Current evaluations suffer from underspecified item selection, construct misalignment, and poor g…