PulseAugur
实时 09:22:38
English(EN) Tight Sample Complexity of Transformers

研究人员收紧 Transformer 的样本复杂度界限

研究人员精确定义了深度为 L、参数为 W 的 Transformer 的 VC 维度,确立了 O(LW log(TW)) 的上界和几乎匹配的下界。该研究还刻画了这些 Transformer 进行思维链学习的样本复杂度,表明教师强制学习的复杂度为 O(LW log((T+T')W))。任何利用思维链数据的学习规则至少需要 \Omega(LW log((T+T')W/L)) 个样本。 AI

影响Transformer 学习提供了理论界限,可能指导未来的模型设计和效率。

排序理由 该集群包含一篇详细介绍 Transformer 样本复杂度理论研究的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Chenxiao Yang, Nathan Srebro, Zhiyuan Li ·

    Transformers 的样本复杂度上限

    arXiv:2606.09731v1 Announce Type: new Abstract: We tightly characterize the VC dimension of depth-$L$ Transformers with a total of $W$ parameters, mapping an input sequence of length $T$ to a single output, establishing an upper bound of $O(L W \log (T W))$ and a nearly matching …

  2. arXiv cs.LG TIER_1 English(EN) · Zhiyuan Li ·

    Transformers 的严格样本复杂度

    We tightly characterize the VC dimension of depth-$L$ Transformers with a total of $W$ parameters, mapping an input sequence of length $T$ to a single output, establishing an upper bound of $O(L W \log (T W))$ and a nearly matching lower bound of $Ω(L W \log (T W / L))$. We furth…