Kan Extension Transformers 统一了注意力、扩散和自条件化

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-26 16:36

研究人员推出了一种名为 Kan Extension Transformers (KETs) 的新框架，该框架通过范畴论的视角统一了各种 Transformer 实现。KETs 将 Transformer 层视为加权的结构化扩展算子，涵盖了标准注意力、Geometric Transformers 和高阶单纯形情况。该框架还连接到扩散式补全，并通过作用于分离的预测载体来引入自条件机制，从而在不泄露未来 token 的情况下揭示非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的实验表明，在严格因果设置下，KETs 的性能优于其他因果架构，其中预测-分离机制带来了最显著的提升。 AI

影响这项研究为理解和开发先进的 Transformer 模型提供了一个统一的理论框架，有望带来更高效、更强大的 AI 系统。

排序理由该集群包含一篇详细介绍 Transformer 架构新理论框架和实验验证的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

Kan Extension Transformers 统一了注意力、扩散和自条件化

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Sridhar Mahadevan · 2026-05-27 04:00

Kan 扩展 Transformer：注意力、扩散和预测-分离自条件化的范畴统一

arXiv:2605.27259v1 Announce Type: new Abstract: We propose Kan Extension Transformers (KETs) as a unifying categorical framework for a diverse group of Transformer implementations. The core claim is that a Transformer layer can be viewed as a weighted structured extension operato…
arXiv cs.LG TIER_1 English(EN) · Sridhar Mahadevan · 2026-05-26 16:36

Kan Extension Transformers: Attention、Diffusion 和 Predict-Detach Self-Conditioning 的分类统一

We propose Kan Extension Transformers (KETs) as a unifying categorical framework for a diverse group of Transformer implementations. The core claim is that a Transformer layer can be viewed as a weighted structured extension operator: standard attention is the singleton-neighborh…

报道来源 [2]

Kan 扩展 Transformer：注意力、扩散和预测-分离自条件化的范畴统一

Kan Extension Transformers: Attention、Diffusion 和 Predict-Detach Self-Conditioning 的分类统一

相关实体

相关话题