English(EN) How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural

Transformer 前馈块：线性是学习到的，而非架构性的

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

研究人员调查了 Transformer 前馈网络 (FFN) 的线性度，发现 FFN 块的线性程度是一种学习到的属性，而非架构属性。通过测量 GPT-2、Pythia-160m 和 llama-160m 等不同 Transformer 模型中的线性可恢复性 (R^2_lin)，他们观察到相邻块之间存在显著差异。此测量值还可作为压缩信号，指示哪些块可以安全地替换为更小、单层的近似。 AI

影响为理解 Transformer 模型内部工作原理提供了见解，可能为未来的架构设计和压缩技术提供信息。

排序理由阐述 Transformer 架构研究成果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Stuart Whipp · 2026-06-19 04:00

How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural

arXiv:2606.19379v1 Announce Type: cross Abstract: Transformer feed-forward networks (FFNs) are often treated as nonlinear stores of computation, yet how nonlinear a trained FFN block actually is has rarely been measured. We treat each FFN as a position-wise input-to-output map an…

报道来源 [1]

How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural

相关实体

相关话题