实体
attention heads
attention heads
PulseAugur coverage of attention heads — every cluster mentioning attention heads across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
潜在空间统一了各种现代AI架构
潜在空间的概念是各种现代AI架构(包括自编码器、注意力机制、扩散模型和世界模型)的统一原则。这种抽象表示对于理解这些不同系统如何处理和生成信息至关重要。探索潜在空间可以深入了解高级AI的内部工作原理和能力。
-
权重衰减控制 Transformer 训练机制,揭示新的诊断方法
研究人员发现,在模块化算术任务上,权重衰减是控制 Transformer 训练机制的关键参数。他们引入了两种新的、低成本的在线诊断方法——平均成对注意力头余弦相似度和熵标准差——以监测注意力激活的训练动态。这些诊断方法应用于各种实验条件和模型规模,能有效区分记忆、泛化(grokking)和崩溃,并确定了记忆到发展的边界的具体过渡点。