PulseAugur
实时 17:59:33
实体 attention heads

attention heads

PulseAugur coverage of attention heads — every cluster mentioning attention heads across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. COMMENTARY · CL_40083 ·

    潜在空间统一了各种现代AI架构

    潜在空间的概念是各种现代AI架构(包括自编码器、注意力机制、扩散模型和世界模型)的统一原则。这种抽象表示对于理解这些不同系统如何处理和生成信息至关重要。探索潜在空间可以深入了解高级AI的内部工作原理和能力。

  2. RESEARCH · CL_44706 ·

    权重衰减控制 Transformer 训练机制,揭示新的诊断方法

    研究人员发现,在模块化算术任务上,权重衰减是控制 Transformer 训练机制的关键参数。他们引入了两种新的、低成本的在线诊断方法——平均成对注意力头余弦相似度和熵标准差——以监测注意力激活的训练动态。这些诊断方法应用于各种实验条件和模型规模,能有效区分记忆、泛化(grokking)和崩溃,并确定了记忆到发展的边界的具体过渡点。