LLM置信度量表影响元认知，研究发现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新发表在arXiv上的研究论文探讨了置信度量表设计对大型语言模型（LLM）的影响。研究发现，无论量表的范围或规则性如何，LLM倾向于将其报告的置信度分数集中在整数上。研究人员操纵了不同粒度和边界设置的置信度量表，发现与标准的0-100量表相比，0-20量表始终能提高元认知效率。研究结果表明，置信度量表设计是评估LLM不确定性的关键因素，应被视为主要的实验变量。 AI

影响表明LLM的评估方法需要通过考虑置信度量表设计这一关键因素来改进。

排序理由发表在arXiv上的研究论文，详细介绍了关于LLM元认知和置信度量表的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuyang Dai, Yuxia Wang · 2026-06-16 04:00

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

arXiv:2603.09309v2 Announce Type: replace Abstract: Verbalized confidence, in which LLMs report a numerical certainty score, is widely used to estimate uncertainty in black-box settings, yet the confidence scale itself (typically 0--100) is rarely examined. We show that this desi…

报道来源 [1]

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

相关实体

相关话题