English(EN) A First-Order Mean Field Control Analysis of Transformer Layers under Cross-Entropy Training

交叉熵训练下 Transformer 层的均场控制分析

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 12:21

研究人员使用连续深度均场控制的视角，在交叉熵训练框架内分析了 Transformer 层。他们将深度视为时间，将层参数视为控制，将 Transformer 递归建模为受控隐藏状态流的显式欧拉方案。该研究为极限种群问题推导了庞特里亚金条件，其中终端伴随项包含 softmax 残差，并为有限类和度量熵场景提供了估计。 AI

影响为理解和潜在优化 Transformer 架构提供了一个新的理论框架。

排序理由该集群包含一篇详细介绍 Transformer 层新分析方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Hongwei Yuan · 2026-06-22 12:21

交叉熵训练下 Transformer 层的一阶均场控制分析

We study Transformer-type residual layers under cross-entropy training through a continuous-depth mean field control viewpoint. Depth is treated as time, layer parameters as controls, and the residual Transformer recursion as an explicit Euler scheme for a controlled hidden-state…

报道来源 [1]

交叉熵训练下 Transformer 层的一阶均场控制分析

相关实体

相关话题