研究人员通过分析Transformer在特定数学基下的内部表示,揭示了它们如何学习模乘法。与之前关于傅里叶谱稠密的假设相反,该研究表明,当使用乘法特征变换进行分析时,Transformer的嵌入变得稀疏,关键频率占主导地位。这表明该模型有效地将乘法简化为离散对数空间中的加法,实现了一种“离散对数时钟”算法。 AI
排序理由 研究论文发布在arXiv上,详细介绍了Transformer可解释性的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →