实体
Michael C. Mozer
Michael C. Mozer
PulseAugur coverage of Michael C. Mozer — every cluster mentioning Michael C. Mozer across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
研究人员提出“Catch Your Breath”以动态调整AI计算
研究人员开发了一种名为 Catch Your Breath (CYB) 的新监督损失函数,旨在使基础模型在序列生成过程中能够自适应地扩展其计算。与将处理延迟视为静态的标准方法不同,CYB 通过发出特殊的“”输出来训练模型,使其能够动态地发出需要额外计算步骤的信号,从而有效地延迟响应。这种方法允许模型自主调整每个 token 的处理时间,从而在不增加计算或内存成本的情况下提高困惑度和下游准确性。
-
研究人员提出循环架构以改进 Transformer 的状态跟踪
一篇新论文提出,Transformer 的前馈架构从根本上限制了它们动态跟踪不断变化状态的能力。作者认为,这种限制迫使状态表示深入模型内部,最终耗尽模型的深度并导致信息不可访问。他们建议,与显式的思维痕迹相比,循环架构对于时间延展的认知是必要的,并提出了一种循环 Transformer 架构的分类法来解决这个问题。