English(EN) Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix

新的注意力机制提升了动态图Transformer的性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 15:58

研究人员发现“注意力分散”是用于动态图学习的Transformer模型中的一种关键失效模式，尤其是在处理时间移位的数据集时。这个问题会导致模型失去对具有重要预测能力的关键节点的关注。为了解决这个问题，该论文提出了一种“差分注意力”机制，该机制抑制共同信号并放大独特信号，从而提高了在具有挑战性的数据集上的性能。 AI

影响引入了一种新颖的注意力机制，以提高Transformer模型在动态图学习任务中的鲁棒性，尤其是在时间分布发生变化的情况下。

排序理由该集群包含一篇学术论文，详细介绍了用于改进动态图学习任务上Transformer模型的新方法和实现。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Long-Kai Huang · 2026-05-15 15:58

Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix

Transformer-based architectures have become the dominant paradigm for Continuous-Time Dynamic Graph (CTDG) learning, yet their performance remains limited on temporally shifted datasets. In this work, we identify attention dispersion as a shared failure mode of dynamic graph Tran…

报道来源 [1]

Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix

相关实体

相关话题