English(EN) Task Vector Geometry Underlies Dual Modes of Task Inference in Transformers

Transformer 任务推理模式与任务向量几何学相关联

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-05 14:07

研究人员探索了 Transformer 的内部工作机制，在中间层表示中识别出影响模型行为的“任务向量”。他们的研究在一个受控的合成环境中进行，揭示了这些任务向量的几何形状如何与训练分布和泛化能力相关。研究结果表明，Transformer 可以通过任务向量的凸组合同时识别已知任务，并通过在正交子空间中进行外推学习来适应新任务。 AI

影响提供了对 Transformer 模型如何泛化和适应新任务的更深入理解，可能为未来的模型架构提供信息。

排序理由这是一篇发表在 arXiv 上的研究论文，详细介绍了关于 Transformer 模型可解释性的理论发现。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Hao Yan, Haolin Yang, Yiqiao Zhong · 2026-05-06 04:00

Transformer中的任务向量几何学支撑着任务推理的双重模式

arXiv:2605.03780v1 Announce Type: new Abstract: Transformers are effective at inferring the latent task from context via two inference modes: recognizing a task seen during training, and adapting to a novel one. Recent interpretability studies have identified from middle-layer re…
arXiv cs.CL TIER_1 English(EN) · Yiqiao Zhong · 2026-05-05 14:07

Transformer中的任务向量几何学支撑着任务推理的双重模式

Transformers are effective at inferring the latent task from context via two inference modes: recognizing a task seen during training, and adapting to a novel one. Recent interpretability studies have identified from middle-layer representations task-specific directions, or task …

报道来源 [2]

Transformer中的任务向量几何学支撑着任务推理的双重模式

Transformer中的任务向量几何学支撑着任务推理的双重模式

相关实体

相关话题