English(EN) Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't

填充Transformer的表达能力与精度和深度相关

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

一篇新的研究论文探讨了填充Transformer（一种神经网络架构）的表达能力。研究发现，数值精度和模型深度是影响其计算能力的主要因素。研究结果表明，具有恒定精度的填充Transformer等同于AC^0电路，而具有可变精度的填充Transformer则可以达到TC^0，而与模型宽度无关。 AI

影响确定了影响Transformer表达能力的关键架构因素，可能指导未来的模型设计。

排序理由该集群包含一篇详细介绍Transformer模型表达能力理论发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Anej Svete, William Merrill, Ryan Cotterell, Ashish Sabharwal · 2026-06-01 04:00

重新审视 Padded Transformer 的表达能力：哪些架构选择重要，哪些不重要

arXiv:2605.30523v1 Announce Type: cross Abstract: Recent work describes what transformers can and cannot compute through connections to boolean circuits, but existing results lack exact characterizations and are sensitive to modeling choices. Padded transformers -- to whose input…