PulseAugur
实时 20:28:05
None Next-Latent Prediction Transformers Learn Compact World Models

NextLat Transformers 学习紧凑的世界模型以实现更好的泛化

研究人员开发了一种名为 Next-Latent Prediction (NextLat) 的新训练方法,用于 transformer 模型,鼓励它们构建更紧凑的内部世界模型。该方法在标准的下一个 token 预测基础上增加了一个自监督目标,训练 transformer 根据当前 token 预测其未来的潜在状态。该方法在包括语言建模在内的各种基准测试中,在准确性、表示压缩和规划方面都显示出实证收益,并且还能加速推理。 AI

影响 通过实现更高效的内部世界模型来增强 transformer 的能力,可能提高泛化能力和推理速度。

排序理由 该集群包含一篇详细介绍 transformer 模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 · Jayden Teoh, Manan Tomar, Kwangjun Ahn, Edward S. Hu, Tim Pearce, Pratyusha Sharma, Akshay Krishnamurthy, Riashat Islam, Alex Lamb, John Langford ·

    Next-Latent Prediction Transformers Learn Compact World Models

    arXiv:2511.05963v2 Announce Type: replace Abstract: Transformers replace recurrence with a memory that grows with sequence length and self-attention that enables ad-hoc lookups over past tokens. Consequently, they lack an inherent incentive to compress history into compact latent…