PulseAugur
实时 12:45:31
English(EN) How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural

Transformer 前馈块:线性是学习到的,而非架构性的

研究人员调查了 Transformer 前馈网络 (FFN) 的线性度,发现 FFN 块的线性程度是一种学习到的属性,而非架构属性。通过测量 GPT-2Pythia-160mllama-160m 等不同 Transformer 模型中的线性可恢复性 (R^2_lin),他们观察到相邻块之间存在显著差异。此测量值还可作为压缩信号,指示哪些块可以安全地替换为更小、单层的近似。 AI

影响 为理解 Transformer 模型内部工作原理提供了见解,可能为未来的架构设计和压缩技术提供信息。

排序理由 阐述 Transformer 架构研究成果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Transformer 前馈块:线性是学习到的,而非架构性的

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Stuart Whipp ·

    How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural

    arXiv:2606.19379v1 Announce Type: cross Abstract: Transformer feed-forward networks (FFNs) are often treated as nonlinear stores of computation, yet how nonlinear a trained FFN block actually is has rarely been measured. We treat each FFN as a position-wise input-to-output map an…