None Next-Latent Prediction Transformers Learn Compact World Models

NextLat Transformers 学习紧凑的世界模型以实现更好的泛化

作者 PulseAugur 编辑部 · [1 source] · 2026-05-25 04:00

研究人员开发了一种名为 Next-Latent Prediction (NextLat) 的新训练方法，用于 transformer 模型，鼓励它们构建更紧凑的内部世界模型。该方法在标准的下一个 token 预测基础上增加了一个自监督目标，训练 transformer 根据当前 token 预测其未来的潜在状态。该方法在包括语言建模在内的各种基准测试中，在准确性、表示压缩和规划方面都显示出实证收益，并且还能加速推理。 AI

影响通过实现更高效的内部世界模型来增强 transformer 的能力，可能提高泛化能力和推理速度。

排序理由该集群包含一篇详细介绍 transformer 模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 · Jayden Teoh, Manan Tomar, Kwangjun Ahn, Edward S. Hu, Tim Pearce, Pratyusha Sharma, Akshay Krishnamurthy, Riashat Islam, Alex Lamb, John Langford · 2026-05-25 04:00

Next-Latent Prediction Transformers Learn Compact World Models

arXiv:2511.05963v2 Announce Type: replace Abstract: Transformers replace recurrence with a memory that grows with sequence length and self-attention that enables ad-hoc lookups over past tokens. Consequently, they lack an inherent incentive to compress history into compact latent…

报道来源 [1]

Next-Latent Prediction Transformers Learn Compact World Models

相关实体

相关话题