English(EN) A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

新框架 Sem-ECE 改进了 LLM 校准评估

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 19:53

研究人员开发了一个名为 Sem-ECE 的新框架，以更好地评估大型语言模型 (LLM) 在开放式问答任务中的校准情况。该方法通过采样答案、将它们分组到语义类别中，并使用这些频率来估计置信度，从而解决了现有评估技术的局限性。该框架包括两个估计器 Sem1-ECE 和 Sem2-ECE，它们在理论上是无偏的，并能深入了解问题的难度。 AI

影响为评估 LLM 在医学和法律等关键应用中的可靠性提供了一种更稳健的方法。

排序理由介绍 LLM 新评估框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

LLMs
Sem-ECE

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Li Shen · 2026-05-08 19:53

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Calibration measures whether a model's predicted confidence aligns with its empirical accuracy, and is central to the reliable deployment of large language models (LLMs) in high-stakes domains such as medicine and law. While much recent work focuses on improving LLM calibration, …

报道来源 [1]

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

相关实体

相关话题