研究人员精确定义了深度为 L、参数为 W 的 Transformer 的 VC 维度,确立了 O(LW log(TW)) 的上界和几乎匹配的下界。该研究还刻画了这些 Transformer 进行思维链学习的样本复杂度,表明教师强制学习的复杂度为 O(LW log((T+T')W))。任何利用思维链数据的学习规则至少需要 \Omega(LW log((T+T')W/L)) 个样本。 AI
影响 为 Transformer 学习提供了理论界限,可能指导未来的模型设计和效率。
排序理由 该集群包含一篇详细介绍 Transformer 样本复杂度理论研究的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →