PulseAugur
实时 22:25:42
English(EN) Task Vector Geometry Underlies Dual Modes of Task Inference in Transformers

Transformer 任务推理模式与任务向量几何学相关联

研究人员探索了 Transformer 的内部工作机制,在中间层表示中识别出影响模型行为的“任务向量”。他们的研究在一个受控的合成环境中进行,揭示了这些任务向量的几何形状如何与训练分布和泛化能力相关。研究结果表明,Transformer 可以通过任务向量的凸组合同时识别已知任务,并通过在正交子空间中进行外推学习来适应新任务。 AI

影响 提供了对 Transformer 模型如何泛化和适应新任务的更深入理解,可能为未来的模型架构提供信息。

排序理由 这是一篇发表在 arXiv 上的研究论文,详细介绍了关于 Transformer 模型可解释性的理论发现。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Transformer 任务推理模式与任务向量几何学相关联

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Hao Yan, Haolin Yang, Yiqiao Zhong ·

    Transformer中的任务向量几何学支撑着任务推理的双重模式

    arXiv:2605.03780v1 Announce Type: new Abstract: Transformers are effective at inferring the latent task from context via two inference modes: recognizing a task seen during training, and adapting to a novel one. Recent interpretability studies have identified from middle-layer re…

  2. arXiv cs.CL TIER_1 English(EN) · Yiqiao Zhong ·

    Transformer中的任务向量几何学支撑着任务推理的双重模式

    Transformers are effective at inferring the latent task from context via two inference modes: recognizing a task seen during training, and adapting to a novel one. Recent interpretability studies have identified from middle-layer representations task-specific directions, or task …