研究人员开发了 CHIAR-Former,这是一种新颖的 4 层 Transformer 模型,通过动态路由令牌来优化计算使用。CHIAR-Former 不会统一应用自注意力,而是分析令牌的频谱熵,将每个令牌导向三个算子之一:DCT 频谱混合、RBF 核混合或全自注意力。这种方法在大型自然语言文本上显著提高了性能,在 WikiText-103 上实现了 45% 的困惑度改进,同时注意力 FLOPs 比标准 Transformer 减少了 62.5%。 AI
影响 引入了一种显著降低 Transformer 在大型文本数据集上计算成本的方法。
排序理由 该集群包含一篇详细介绍新颖模型架构及其性能评估的研究论文。
在 Hugging Face Daily Papers 阅读 →
- CHIAR-Former
- Chiaroscuro Attention
- IMDB
- ListOps
- WikiText-103
- WikiText-2
- DCT spectral mixing
- IMDB sentiment classification
- RBF kernel mixing
- self-attention
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →