Deutsch(DE) ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

新的 ARCA 方法改进了 LLM 在微调中的信用分配

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员推出了一种名为适配器-残差信用分配（ARCA）的新方法，用于在语言模型强化学习中分配 Token 的信用。ARCA 解决了参数高效微调（如 LoRA）中的一种失败模式，在这种模式下，标准的信用信号可能会退化。ARCA 不依赖于输出分布的变化，而是衡量适配器对模型隐藏状态的实际影响。这种方法不需要额外的学习组件，并在 MATH 数据集和 Qwen3-1.7B 的实验中取得了具有竞争力的结果。 AI

影响引入了一种新技术，以提高大型语言模型微调的效率和有效性。

排序理由这是一篇详细介绍 LLM 强化学习新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 Deutsch(DE) · Rodney Lafuente-Mercado · 2026-06-02 04:00

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

arXiv:2606.00257v1 Announce Type: cross Abstract: Token-level credit assignment for language-model reinforcement learning is usually formulated as if the policy were fully trainable, while practical LLM-RL pipelines often rely on parameter-efficient fine-tuning, especially LoRA. …

报道来源 [1]

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

相关实体

相关话题