一项新的研究论文表明,大型语言模型(LLMs)报告的置信水平与其承诺给出答案的意愿相比,更能反映其真实正确性。该研究采用了一个两阶段的弃权范式,发现LLMs的口头置信度报告比它们预测答案是否正确,更能准确地预测它们是会给出答案还是弃权。这种分离现象在各种模型、提示框架和基准测试中都有观察到,表明口头置信度可能代表一种‘承诺就绪’状态,而不是可靠性的直接代理。 AI
影响 挑战了将LLM口头置信度作为答案可靠性直接代理的普遍做法。
排序理由 学术论文,详细介绍了LLM行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →