PulseAugur
实时 15:11:43
English(EN) LLM guesses or knows

通过词元概率分析 LLM 的确定性与猜测

研究人员通过分析词元(token)概率,探讨了如何判断大型语言模型(LLM)是在猜测还是知道答案。他们发现,较低的熵(entropy),表现为顶部备选词元的高概率,表明模型有把握;而较高的熵则暗示模型在猜测。在测试中,GPT-4o-mini 在创意任务上表现出诚实的“不确定性”,而 GPT-4.1-nano 则显示出校准不当,使其不太适合自主决策。 AI

影响 这项研究可能有助于更好地校准 LLM,通过区分自信的预测和猜测,从而提高其在自主任务中的可靠性。

排序理由 该集群通过词元概率分析 LLM 的行为,以区分猜测和知道,这是一个面向研究的主题。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Alex ·

    LLM guesses or knows

    <p>We wanted to know when LLM is guessing versus when it actually knows the answer.</p> <p>LLM models expose logprobs - after every word they generate, you can request the top alternative tokens and their probabilities. Low entropy means the model was certain, high means it was g…