English(EN) A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

新理论解释了多域强化学习中大型语言模型的干扰与恢复

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一种新理论，用于解释大型语言模型在多域强化学习中的干扰和恢复现象。他们发现，在一个域上进行训练会通过局部参数编辑而非全局梯度冲突，对其他域的性能产生负面影响。该理论表明，在特定域上进行短暂的刷新训练可以有选择性地恢复性能，且附带损害最小，实验证明了这一点，该实验在保持其他任务性能的同时提高了数学推理分数。 AI

影响提供了对大型语言模型在多域训练后如何在特定任务上退化的机制性理解，并提出了有针对性的恢复方法。

排序理由该集群包含一篇详细介绍多域强化学习新理论的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Lei Yang, Siyu Ding, Deyi Xiong · 2026-06-02 04:00

A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

arXiv:2606.02398v1 Announce Type: cross Abstract: Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often…

报道来源 [1]

A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

相关实体

相关话题