研究人员分析了机器学习基准被操纵的易感性,将数据集视为选民,模型视为候选人。他们发现,为了在排行榜上获得最高排名而策略性地将基准数据包含在模型的训练集中是一个NP难问题,类似于选举贿赂。该研究引入了“实例级鲁棒性”来量化操纵所需的最小数据集,并评估了其在MMLU和BIG-Bench Hard排行榜上的表现。 AI
影响 强调了机器学习排行榜被操纵的可能性,敦促在解释基准结果时要谨慎。
排序理由 该集群包含一篇分析机器学习基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →