PulseAugur
实时 09:35:02

LLM置信度量表影响元认知,研究发现

一篇新发表在arXiv上的研究论文探讨了置信度量表设计对大型语言模型(LLM)的影响。研究发现,无论量表的范围或规则性如何,LLM倾向于将其报告的置信度分数集中在整数上。研究人员操纵了不同粒度和边界设置的置信度量表,发现与标准的0-100量表相比,0-20量表始终能提高元认知效率。研究结果表明,置信度量表设计是评估LLM不确定性的关键因素,应被视为主要的实验变量。 AI

影响 表明LLM的评估方法需要通过考虑置信度量表设计这一关键因素来改进。

排序理由 发表在arXiv上的研究论文,详细介绍了关于LLM元认知和置信度量表的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuyang Dai, Yuxia Wang ·

    Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

    arXiv:2603.09309v2 Announce Type: replace Abstract: Verbalized confidence, in which LLMs report a numerical certainty score, is widely used to estimate uncertainty in black-box settings, yet the confidence scale itself (typically 0--100) is rarely examined. We show that this desi…