PulseAugur
实时 10:31:01

研究人员发现控制 Transformer 中语言身份的“首个 token 广播器”

研究人员在 Transformer 模型中识别出特定的注意力头,称为“首个 token 广播器”,它们对于维持模型的语言身份至关重要。这些注意力头,在 GPT-2 和经过指令微调的 Qwen2.5 等模型中尤为突出,会持续关注提示的初始 token,从而在整个生成过程中传播预期的语言信号。使用语言身份头消融(LIHA)进行的实验表明,指令微调显著将这种语言信号机制定位在模型的早期层,这与基础模型中影响更为分散的情况形成对比。 AI

影响 提供了对大型语言模型中语言漂移的机制性理解,有望提高多语言模型的控制能力和鲁棒性。

排序理由 学术论文,详细介绍了 Transformer 模型行为的新机制洞察。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究人员发现控制 Transformer 中语言身份的“首个 token 广播器”

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Anjelo Jann Laroza ·

    首个Token广播器:Transformer中语言身份和分布式鲁棒性的机制起源

    Why do multilingual language models sometimes generate in the wrong language, and why is this so hard to fix? We introduce Language Identity Head Ablation (LIHA), a causal intervention that zeros each attention head individually and measures the resulting language switch rate acr…