一个名为ACE的新框架已被开发出来,用于提供对大型语言模型校准更准确、更公平的比较。现有的使用预期校准误差和Brier分数等全局指标的方法,由于模型准确性的差异而受到混淆。ACE通过其实例对齐、分布对齐和候选对齐视图,通过控制准确性来解决这个问题。使用ACE的研究表明,在准确性控制后,许多先前观察到的校准优势显著减弱,模型排名频繁逆转,表明原始全局指标在跨模型比较中存在不足。 AI
影响 提供了一种更可靠的方法来评估和比较大型语言模型的校准,可能有助于改进模型开发。
排序理由 该集群包含一篇详细介绍大型语言模型新评估框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →