PulseAugur
实时 04:02:13
English(EN) How Hard is it to Rig a Benchmark? A Social Choice Analysis of Leaderboard Robustness

新研究揭示机器学习基准易受操纵

研究人员分析了机器学习基准被操纵的易感性,将数据集视为选民,模型视为候选人。他们发现,为了在排行榜上获得最高排名而策略性地将基准数据包含在模型的训练集中是一个NP难问题,类似于选举贿赂。该研究引入了“实例级鲁棒性”来量化操纵所需的最小数据集,并评估了其在MMLU和BIG-Bench Hard排行榜上的表现。 AI

影响 强调了机器学习排行榜被操纵的可能性,敦促在解释基准结果时要谨慎。

排序理由 该集群包含一篇分析机器学习基准的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Polina Gordienko, Georg Schollmeyer, Frauke Kreuter, Christoph Jansen ·

    操纵基准测试有多难?一项关于排行榜鲁棒性的社会选择分析

    arXiv:2605.23628v1 Announce Type: new Abstract: Multi-task benchmarks have become a central pillar of machine learning research, yet their growing influence has incentivised benchmark gaming -- strategic actions taken to improve the leaderboard rank of a specific model. Treating …

  2. arXiv cs.LG TIER_1 English(EN) · Christoph Jansen ·

    操纵基准测试有多难?一项关于排行榜鲁棒性的社会选择分析

    Multi-task benchmarks have become a central pillar of machine learning research, yet their growing influence has incentivised benchmark gaming -- strategic actions taken to improve the leaderboard rank of a specific model. Treating datasets as voters and models as candidates, we …