研究人员开发了一个理论框架,使用最优输运来分析大型语言模型(LLM)的推理和分布外泛化能力。他们的方法用Wasserstein-1距离量化域偏移,并确定了两个关键限制:依赖位置的注意力机制阻碍了移位不变性,而Transformer中的顺序回溯对电路深度施加了下限。在组合搜索任务上的评估证实,泛化风险随域偏移的增加而增加,凸显了物理层深度缩放的必要性。 AI
影响 为理解LLM泛化能力提供了理论框架,可能指导未来的架构改进。
排序理由 学术论文,对LLM推理和泛化能力进行理论分析。[lever_c_demoted from research: ic=1 ai=1.0]
- Barron spaces
- Dyck-k language
- LLM
- optimal transport
- position-dependent attention
- Transformers
- Wasserstein-1 distance
- TC^0
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →