PulseAugur
实时 18:52:06

FLUID Transformer 将连续动力学引入注意力机制,以改进时间序列学习

研究人员推出了一种新颖的连续时间 Transformer 架构 FLUID,它将连续动力学直接集成到其注意力机制中。这种新方法称为 Liquid Attention Network (LAN),用一个由输入相关门控调制的线性常微分方程求解系统取代了标准的缩放点积注意力。FLUID 在时间序列分析、长程建模和自动驾驶控制等各种任务上均表现出改进的性能,显示出增强的鲁棒性和泛化能力。 AI

影响 引入了一种新的连续时间 Transformer 架构,有望改进不规则和长程数据的建模。

排序理由 这是一篇详细介绍新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

FLUID Transformer 将连续动力学引入注意力机制,以改进时间序列学习

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Waleed Razzaq, Yun-Bo Zhao ·

    FLUID: Continuous-Time Hyperconnected Sparse Transformer for Sink-Free Learning

    arXiv:2605.04421v1 Announce Type: new Abstract: Continuous-time (CT) Transformers improve irregular and long-range modeling over CT-RNNs by exploiting inputs or outputs embeddings with continuous dynamics. However, the core scaled-dot-product-attention (SDPA) mechanism remains in…