English(EN) Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen

研究发现3-9B LLM在语言置信度测试中失败，影响不确定性估计

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-24 04:45

一项新研究检查了七个参数量在30亿到90亿之间的指令微调、开源大型语言模型（LLM）的语言置信度。研究人员发现，这些模型未能达到表达不确定性的最低有效性标准，所有模型在数值置信度引发方面均被判定为无效。使用分类引发来改进置信度报告的尝试扰乱了大多数模型的任务表现，导致准确率低于5%。研究表明，当前的语言置信度引发方法不足以捕捉此类规模模型内部的不确定性信号。 AI

影响强调了当前LLM置信度报告的局限性，表明在下游使用前需要改进方法。

排序理由学术论文，详细介绍了关于LLM置信度引发的实验结果。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Jon-Paul Cacioli · 2026-04-27 04:00

3-9B 开源指令微调大模型中的语言自信度饱和：一项预注册的心理测量学有效性筛查

arXiv:2604.22215v1 Announce Type: new Abstract: Verbal confidence elicitation is widely used to extract uncertainty estimates from LLMs. We tested whether seven instruction-tuned open-weight models (3-9B parameters, four families) produce verbalised confidence that meets minimal …
arXiv cs.CL TIER_1 English(EN) · Jon-Paul Cacioli · 2026-04-24 04:45

3-9B 开源指令微调大模型中的语言置信度饱和：一项预注册的心理测量学有效性筛查

Verbal confidence elicitation is widely used to extract uncertainty estimates from LLMs. We tested whether seven instruction-tuned open-weight models (3-9B parameters, four families) produce verbalised confidence that meets minimal validity criteria for item-level Type-2 discrimi…

报道来源 [2]

3-9B 开源指令微调大模型中的语言自信度饱和：一项预注册的心理测量学有效性筛查

3-9B 开源指令微调大模型中的语言置信度饱和：一项预注册的心理测量学有效性筛查

相关实体

相关话题