PulseAugur
实时 10:49:13
English(EN) Re-feeding Is Not Replaying: Measuring Replay Noise in Counterfactual Token-Credit Estimation

新研究质疑语言模型信用估算方法的可靠性

一篇来自arXiv的新论文探讨了语言模型中反事实代币信用估算方法的可靠性。研究指出,将转录前缀作为新提示重新喂入,这种常用方法会引入显著噪声,而与从已验证的解码时KV状态恢复相比。这种噪声会改变信用估算,尤其是在低边际决策代币上,并影响关键代币的选择。研究表明,使用批次不变核或恢复解码器状态对于更准确的信用估算至关重要,并建议报告副本基线以解释单样本测量中的固有噪声。 AI

影响 强调了当前将模型输出归因于特定代币的方法可能存在的不可靠性,影响了模型可解释性方面的研究。

排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了关于语言模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Nils Matteson ·

    Re-feeding Is Not Replaying: Measuring Replay Noise in Counterfactual Token-Credit Estimation

    arXiv:2606.15621v1 Announce Type: cross Abstract: Per-token counterfactual credit estimation asks which token in a language-model rollout caused the final answer to be right or wrong: cut the transcript at a pivot, substitute an alternative token, replay continuations, and compar…