PulseAugur
实时 23:40:04
实体 RBF kernel mixing

RBF kernel mixing

PulseAugur coverage of RBF kernel mixing — every cluster mentioning RBF kernel mixing across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_79133 ·

    Chiaroscuro Attention 通过动态令牌路由优化 Transformer 计算

    研究人员开发了 CHIAR-Former,这是一种新颖的 4 层 Transformer 模型,通过动态路由令牌来优化计算使用。CHIAR-Former 不会统一应用自注意力,而是分析令牌的频谱熵,将每个令牌导向三个算子之一:DCT 频谱混合、RBF 核混合或全自注意力。这种方法在大型自然语言文本上显著提高了性能,在 WikiText-103 上实现了 45% 的困惑度改进,同时注意力 FLOPs 比标准 Transformer 减少…