一篇来自arXiv的新论文探讨了语言模型中反事实代币信用估算方法的可靠性。研究指出,将转录前缀作为新提示重新喂入,这种常用方法会引入显著噪声,而与从已验证的解码时KV状态恢复相比。这种噪声会改变信用估算,尤其是在低边际决策代币上,并影响关键代币的选择。研究表明,使用批次不变核或恢复解码器状态对于更准确的信用估算至关重要,并建议报告副本基线以解释单样本测量中的固有噪声。 AI
影响 强调了当前将模型输出归因于特定代币的方法可能存在的不可靠性,影响了模型可解释性方面的研究。
排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了关于语言模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- DagsHub
- Gotit.pub
- Grpo
- Hugging Face
- KV state
- Re-feeding Is Not Replaying: Measuring Replay Noise in Counterfactual Token-Credit Estimation
- ScienceCast
- vLLM
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →