研究人员通过分析词元(token)概率,探讨了如何判断大型语言模型(LLM)是在猜测还是知道答案。他们发现,较低的熵(entropy),表现为顶部备选词元的高概率,表明模型有把握;而较高的熵则暗示模型在猜测。在测试中,GPT-4o-mini 在创意任务上表现出诚实的“不确定性”,而 GPT-4.1-nano 则显示出校准不当,使其不太适合自主决策。 AI
影响 这项研究可能有助于更好地校准 LLM,通过区分自信的预测和猜测,从而提高其在自主任务中的可靠性。
排序理由 该集群通过词元概率分析 LLM 的行为,以区分猜测和知道,这是一个面向研究的主题。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →