PulseAugur
实时 02:35:10
English(EN) Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't

填充Transformer的表达能力与精度和深度相关

一篇新的研究论文探讨了填充Transformer(一种神经网络架构)的表达能力。研究发现,数值精度和模型深度是影响其计算能力的主要因素。研究结果表明,具有恒定精度的填充Transformer等同于AC^0电路,而具有可变精度的填充Transformer则可以达到TC^0,而与模型宽度无关。 AI

影响 确定了影响Transformer表达能力的关键架构因素,可能指导未来的模型设计。

排序理由 该集群包含一篇详细介绍Transformer模型表达能力理论发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Anej Svete, William Merrill, Ryan Cotterell, Ashish Sabharwal ·

    重新审视 Padded Transformer 的表达能力:哪些架构选择重要,哪些不重要

    arXiv:2605.30523v1 Announce Type: cross Abstract: Recent work describes what transformers can and cannot compute through connections to boolean circuits, but existing results lack exact characterizations and are sensitive to modeling choices. Padded transformers -- to whose input…