PulseAugur
实时 08:16:45
English(EN) Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen

研究发现3-9B LLM在语言置信度测试中失败,影响不确定性估计

一项新研究检查了七个参数量在30亿到90亿之间的指令微调、开源大型语言模型(LLM)的语言置信度。研究人员发现,这些模型未能达到表达不确定性的最低有效性标准,所有模型在数值置信度引发方面均被判定为无效。使用分类引发来改进置信度报告的尝试扰乱了大多数模型的任务表现,导致准确率低于5%。研究表明,当前的语言置信度引发方法不足以捕捉此类规模模型内部的不确定性信号。 AI

影响 强调了当前LLM置信度报告的局限性,表明在下游使用前需要改进方法。

排序理由 学术论文,详细介绍了关于LLM置信度引发的实验结果。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

研究发现3-9B LLM在语言置信度测试中失败,影响不确定性估计

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Jon-Paul Cacioli ·

    Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen

    arXiv:2604.22215v1 Announce Type: new Abstract: Verbal confidence elicitation is widely used to extract uncertainty estimates from LLMs. We tested whether seven instruction-tuned open-weight models (3-9B parameters, four families) produce verbalised confidence that meets minimal …

  2. arXiv cs.CL TIER_1 English(EN) · Jon-Paul Cacioli ·

    Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen

    Verbal confidence elicitation is widely used to extract uncertainty estimates from LLMs. We tested whether seven instruction-tuned open-weight models (3-9B parameters, four families) produce verbalised confidence that meets minimal validity criteria for item-level Type-2 discrimi…