English(EN) LLM guesses or knows

通过词元概率分析 LLM 的确定性与猜测

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-14 13:12

研究人员通过分析词元（token）概率，探讨了如何判断大型语言模型（LLM）是在猜测还是知道答案。他们发现，较低的熵（entropy），表现为顶部备选词元的高概率，表明模型有把握；而较高的熵则暗示模型在猜测。在测试中，GPT-4o-mini 在创意任务上表现出诚实的“不确定性”，而 GPT-4.1-nano 则显示出校准不当，使其不太适合自主决策。 AI

影响这项研究可能有助于更好地校准 LLM，通过区分自信的预测和猜测，从而提高其在自主任务中的可靠性。

排序理由该集群通过词元概率分析 LLM 的行为，以区分猜测和知道，这是一个面向研究的主题。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

模型发布

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Alex · 2026-06-14 13:12

LLM guesses or knows

<p>We wanted to know when LLM is guessing versus when it actually knows the answer.</p> <p>LLM models expose logprobs - after every word they generate, you can request the top alternative tokens and their probabilities. Low entropy means the model was certain, high means it was g…

报道来源 [1]

LLM guesses or knows

相关实体

相关话题