English(EN) Re-feeding Is Not Replaying: Measuring Replay Noise in Counterfactual Token-Credit Estimation

新研究质疑语言模型信用估算方法的可靠性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇来自arXiv的新论文探讨了语言模型中反事实代币信用估算方法的可靠性。研究指出，将转录前缀作为新提示重新喂入，这种常用方法会引入显著噪声，而与从已验证的解码时KV状态恢复相比。这种噪声会改变信用估算，尤其是在低边际决策代币上，并影响关键代币的选择。研究表明，使用批次不变核或恢复解码器状态对于更准确的信用估算至关重要，并建议报告副本基线以解释单样本测量中的固有噪声。 AI

影响强调了当前将模型输出归因于特定代币的方法可能存在的不可靠性，影响了模型可解释性方面的研究。

排序理由该集群包含一篇在arXiv上发表的研究论文，详细介绍了关于语言模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Nils Matteson · 2026-06-16 04:00

重新喂食并非重放：衡量反事实代币信用估计中的重放噪声

arXiv:2606.15621v1 Announce Type: cross Abstract: Per-token counterfactual credit estimation asks which token in a language-model rollout caused the final answer to be right or wrong: cut the transcript at a pivot, substitute an alternative token, replay continuations, and compar…

报道来源 [1]

重新喂食并非重放：衡量反事实代币信用估计中的重放噪声

相关实体

相关话题