研究人员开发了一个名为 Sem-ECE 的新框架,以更好地评估大型语言模型 (LLM) 在开放式问答任务中的校准情况。该方法通过采样答案、将它们分组到语义类别中,并使用这些频率来估计置信度,从而解决了现有评估技术的局限性。该框架包括两个估计器 Sem1-ECE 和 Sem2-ECE,它们在理论上是无偏的,并能深入了解问题的难度。 AI
影响 为评估 LLM 在医学和法律等关键应用中的可靠性提供了一种更稳健的方法。
排序理由 介绍 LLM 新评估框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →