新的mHC架构改变了AI模型中注意力头的行为

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-03 11:06

研究人员调查了流形约束超连接（mHC）这一在Deepseek v4中实现的新型架构对模型可解释性的影响。实验显示，mHC模型中的先前标记注意力头表现出不同的行为，出现在更早的层中，并与高峰度分数相关，这与在标准模型中通过对角条纹分数可检测到的情况不同。研究还观察到，mHC-lite模型倾向于在其残差流中输出多样化的标记，而mHC模型在标记预测方面表现出更强的统一性。 AI

影响研究了新架构组件的可解释性，可能影响未来的模型设计和调试。

排序理由该集群描述了对新型架构组件（mHC）及其对模型行为影响的学术研究，符合“研究”类别。

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Realmbird · 2026-05-03 11:06

MHC Interp #1：先前 Token 头部在流形约束超连接下成为注意力汇聚点

<h1><span>Background:</span></h1><p><span>Manifold-Constrained Hyper-Connections (mHC) is a new architecture added by Deepseek and recently implemented in Deepseek v4.</span></p><p><span>mHC is a fix that makes HC(Hyper-Connections) vanishing or exploding gradient caused by HC wh…

报道来源 [1]

MHC Interp #1：先前 Token 头部在流形约束超连接下成为注意力汇聚点

相关实体

相关话题