PulseAugur
实时 02:54:58

新理论使用最优输运分析LLM推理极限

研究人员开发了一个理论框架,使用最优输运来分析大型语言模型(LLM)的推理和分布外泛化能力。他们的方法用Wasserstein-1距离量化域偏移,并确定了两个关键限制:依赖位置的注意力机制阻碍了移位不变性,而Transformer中的顺序回溯对电路深度施加了下限。在组合搜索任务上的评估证实,泛化风险随域偏移的增加而增加,凸显了物理层深度缩放的必要性。 AI

影响 为理解LLM泛化能力提供了理论框架,可能指导未来的架构改进。

排序理由 学术论文,对LLM推理和泛化能力进行理论分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新理论使用最优输运分析LLM推理极限

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Xiaoyin Chen ·

    A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits

    While empirical scaling laws for LLM reasoning are well-documented, the theoretical mechanisms governing out-of-distribution (OOD) generalization remain elusive. We formalize reasoning via optimal transport, projecting discrete trajectories into a continuous metric space to quant…