研究人员推出了一种新颖的连续时间 Transformer 架构 FLUID,它将连续动力学直接集成到其注意力机制中。这种新方法称为 Liquid Attention Network (LAN),用一个由输入相关门控调制的线性常微分方程求解系统取代了标准的缩放点积注意力。FLUID 在时间序列分析、长程建模和自动驾驶控制等各种任务上均表现出改进的性能,显示出增强的鲁棒性和泛化能力。 AI
影响 引入了一种新的连续时间 Transformer 架构,有望改进不规则和长程数据的建模。
排序理由 这是一篇详细介绍新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →