研究人员开发了 MesaNet,这是一种新颖的序列建模架构,通过局部最优测试时训练来优化性能。这种方法源于由共轭梯度求解器最小化的上下文内损失,允许分块并行化和可扩展性。实验表明,MesaNet 在序列建模任务上实现了比以往的循环神经网络更低的困惑度(perplexity)和更好的下游性能,尤其是在需要长上下文的任务上,尽管它会增加推理计算量。 AI
影响 通过增加测试时计算量,提出了一种改进长上下文任务性能的序列建模新方法。
排序理由 该集群包含一篇详细介绍新模型架构及其实验评估的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →