研究人员开发了 State Stream Transformer (SST) V2,这是一种旨在增强语言模型潜空间推理能力的架构创新。与在每一步重置上下文的标准 Transformer 不同,SST V2 采用非线性递归机制,在整个序列中维护和演化连续的潜状态。这使得参数使用更有效,并在生成 token 前进行更深入的思考,从而在推理任务上取得显著改进。 AI
影响 引入了一种新颖的架构方法,用于增强 LLM 的推理能力,有可能提高在复杂任务上的性能。
排序理由 该集群描述了一篇关于语言模型架构创新的新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →