实体 PromptEval

PromptEval

PulseAugur coverage of PromptEval — every cluster mentioning PromptEval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_79477 · Jun 7 · 15:31

新框架以统计置信区间对AI模型进行排名

研究人员开发了一个新的分层框架，用于在排行榜上评估预训练模型，解决了不同任务之间性能的不确定性和可变性。该方法在任务和排行榜层面构建了统计上保证的排名区间，提供了更可靠的方法来量化模型性能并考虑变异性。在TabArena和PromptEval (MMLU)等基准测试上的实验证明了该框架能够为不确定性感知的模型排名产生信息丰富的区间。