实体
Open LLM Leaderboard
Open LLM Leaderboard
PulseAugur coverage of Open LLM Leaderboard — every cluster mentioning Open LLM Leaderboard across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
AI benchmark rankings undermined by noise, new study finds
Researchers have developed a new framework to analyze the reliability of AI benchmark leaderboards, which often suffer from measurement noise. By applying Confirmatory Factor Analysis and Generalizability Theory to over…
-
新研究揭示机器学习基准易受操纵
研究人员分析了机器学习基准被操纵的易感性,将数据集视为选民,模型视为候选人。他们发现,为了在排行榜上获得最高排名而策略性地将基准数据包含在模型的训练集中是一个NP难问题,类似于选举贿赂。该研究引入了“实例级鲁棒性”来量化操纵所需的最小数据集,并评估了其在MMLU和BIG-Bench Hard排行榜上的表现。