研究人员推出了一种名为 Kan Extension Transformers (KETs) 的新框架,该框架通过范畴论的视角统一了各种 Transformer 实现。KETs 将 Transformer 层视为加权的结构化扩展算子,涵盖了标准注意力、Geometric Transformers 和高阶单纯形情况。该框架还连接到扩散式补全,并通过作用于分离的预测载体来引入自条件机制,从而在不泄露未来 token 的情况下揭示非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的实验表明,在严格因果设置下,KETs 的性能优于其他因果架构,其中预测-分离机制带来了最显著的提升。 AI
影响 这项研究为理解和开发先进的 Transformer 模型提供了一个统一的理论框架,有望带来更高效、更强大的 AI 系统。
排序理由 该集群包含一篇详细介绍 Transformer 架构新理论框架和实验验证的研究论文。
- Attention
- Diffusion
- Geometric Transformer
- Kan Extension Transformers
- Penn Treebank
- Transformer
- WikiText-103
- WikiText-2
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →