研究人员调查了流形约束超连接(mHC)这一在Deepseek v4中实现的新型架构对模型可解释性的影响。实验显示,mHC模型中的先前标记注意力头表现出不同的行为,出现在更早的层中,并与高峰度分数相关,这与在标准模型中通过对角条纹分数可检测到的情况不同。研究还观察到,mHC-lite模型倾向于在其残差流中输出多样化的标记,而mHC模型在标记预测方面表现出更强的统一性。 AI
影响 研究了新架构组件的可解释性,可能影响未来的模型设计和调试。
排序理由 该集群描述了对新型架构组件(mHC)及其对模型行为影响的学术研究,符合“研究”类别。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →