English(EN) Localizing RL-Induced Tool Use to a Single Crosscoder Feature

新方法分离大型语言模型中的工具使用特征，实现行为控制

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员发现了一种名为专用特征交叉编码器（DFC）的方法，用于分离和理解语言模型中实现工具使用能力的特定特征。通过将 DFC 应用于 Qwen2.5-3B 模型，他们发现这些分离的特征显著提高了结构化工具调用生成能力，甚至可以将这种能力转移到冻结的基础模型上，这种现象被称为“能力溢出”。这项工作表明，DFC 可以将智能体式大型语言模型的能力集中到一个最小的、可控的特征集中，从而实现运行时行为控制。 AI

影响这项研究通过分离和操纵特定的行为特征，有望实现更可控、更易于理解的智能体式大型语言模型。

排序理由该集群包含一篇学术论文，详细介绍了一种分析和控制大型语言模型能力的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Andrii Shportko, Shubham Bhokare, Ahmed Zeyad A Alzahrani, Bowen Cheng, Gustavo Mercier, Jessica Hullman · 2026-06-26 04:00

将 RL 诱导的工具使用本地化到单个交叉编码器特征

arXiv:2606.26474v1 Announce Type: cross Abstract: Fine-tuning through RL reshapes the internal representations of language models to enable agentic behaviors such as tool use, yet the mechanistic basis of these changes remains poorly understood. While RL substantially improves st…

报道来源 [1]

将 RL 诱导的工具使用本地化到单个交叉编码器特征

相关实体

相关话题