研究人员证明,两层Transformer模型是计算PARITY任务(确定二进制序列中1的数量是偶数还是奇数)所需的最低层数。他们证明,单层Transformer由于其平均敏感性增长慢于PARITY,因此无法解决该问题。此外,一种新的构造表明,PARITY可以通过四层Transformer计算,而无需长度依赖的位置编码或hardmax等不切实际的假设,并且与因果掩码兼容。 AI
影响 为Transformer架构的计算能力和局限性提供了理论见解。
排序理由 学术论文,详细介绍了Transformer模型在特定计算任务上的理论局限性和新构造。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →