English(EN) When Calibration Rankings Reverse: Accuracy-Controlled Evaluation for Fair Comparison of LLMs

新的ACE框架提供了更公平的大型语言模型校准比较

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

一个名为ACE的新框架已被开发出来，用于提供对大型语言模型校准更准确、更公平的比较。现有的使用预期校准误差和Brier分数等全局指标的方法，由于模型准确性的差异而受到混淆。ACE通过其实例对齐、分布对齐和候选对齐视图，通过控制准确性来解决这个问题。使用ACE的研究表明，在准确性控制后，许多先前观察到的校准优势显著减弱，模型排名频繁逆转，表明原始全局指标在跨模型比较中存在不足。 AI

影响提供了一种更可靠的方法来评估和比较大型语言模型的校准，可能有助于改进模型开发。

排序理由该集群包含一篇详细介绍大型语言模型新评估框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zhichao Yang, Caiqi Zhang, Ruihan Yang, Chengzu Li, Nigel Collier, Deqing Yang · 2026-07-01 04:00

When Calibration Rankings Reverse: Accuracy-Controlled Evaluation for Fair Comparison of LLMs

arXiv:2606.30814v1 Announce Type: new Abstract: Calibration evaluates whether a model confidence aligns with its empirical accuracy. Existing studies often compare the calibration of different large language models using global calibration metrics such as Expected Calibration Err…

报道来源 [1]

When Calibration Rankings Reverse: Accuracy-Controlled Evaluation for Fair Comparison of LLMs

相关实体

相关话题