新理论使用最优输运分析LLM推理极限

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 15:00

研究人员开发了一个理论框架，使用最优输运来分析大型语言模型（LLM）的推理和分布外泛化能力。他们的方法用Wasserstein-1距离量化域偏移，并确定了两个关键限制：依赖位置的注意力机制阻碍了移位不变性，而Transformer中的顺序回溯对电路深度施加了下限。在组合搜索任务上的评估证实，泛化风险随域偏移的增加而增加，凸显了物理层深度缩放的必要性。 AI

影响为理解LLM泛化能力提供了理论框架，可能指导未来的架构改进。

排序理由学术论文，对LLM推理和泛化能力进行理论分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xiaoyin Chen · 2026-05-19 15:00

A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits

While empirical scaling laws for LLM reasoning are well-documented, the theoretical mechanisms governing out-of-distribution (OOD) generalization remain elusive. We formalize reasoning via optimal transport, projecting discrete trajectories into a continuous metric space to quant…

报道来源 [1]

A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits

相关实体

相关话题