实体 Transformer attention

Transformer attention

PulseAugur coverage of Transformer attention — every cluster mentioning Transformer attention across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

RESEARCH · CL_111635 · Jun 25 · 17:51

RayPE编码提升视频生成模型的三维感知能力

研究人员开发了RayPE，一种用于视频扩散Transformer的新型位置编码方法，可增强三维感知能力。与使用相机网格坐标的现有方法不同，RayPE结合了6D Plucker坐标来捕捉相机射线之间的几何关系。该方法将注意力分数分解为内容和几何项，两者都被发现对性能至关重要。该方法轻量级，为现有模型增加的参数不到0.1%，并在相机可控性、帧间三维一致性以及整体视频质量方面取得了改进。
TOOL · CL_84186 · Jun 10 · 23:35

研究发现Transformer注意力机制执行控制能力不足

一项新的研究论文探讨了Transformer注意力机制的局限性，特别是其“执行控制”能力。该研究发表在PNAS Nexus上，表明虽然Transformer在信息处理方面表现出色，但在规划和决策等更高级的认知功能方面存在困难。这种缺陷可能会影响它们在需要战略推理的复杂任务中的表现。
TOOL · CL_44971 · May 22 · 04:00

FlashSinkhorn求解器加速GPU上的最优输运

研究人员开发了FlashSinkhorn，一种新的GPU加速熵最优输运（EOT）求解器，可显著减少内存输入输出操作。通过重写稳定对数域Sinkhorn更新以模仿Transformer注意力中的归一化过程，FlashSinkhorn实现了融合内核，将数据流经片上SRAM。这种方法在A100 GPU上执行点云OT等任务时，与现有方法相比，前向传播速度提高了32倍，端到端速度提高了161倍。
TOOL · CL_44818 · May 22 · 04:00

能量门控注意力通过优先处理显著性token来增强Transformer模型

研究人员推出了一种名为能量门控注意力（EGA）的新型机制，旨在通过关注谱显著性token来改进Transformer模型。该方法借鉴了流体动力学的原理，优先处理信息密集且拥有不成比例谱能量的token。EGA在TinyShakespeare和Penn Treebank等数据集上实现了显著的验证损失改进，同时参数开销极小，计算成本也无额外增加。

RayPE编码提升视频生成模型的三维感知能力

研究发现Transformer注意力机制执行控制能力不足

FlashSinkhorn求解器加速GPU上的最优输运

能量门控注意力通过优先处理显著性token来增强Transformer模型