一篇题为“通过实践来保留”(Retaining by Doing)的新研究论文探讨了如何在训练后适应过程中缓解语言模型的灾难性遗忘。该研究比较了监督微调(SFT)与强化学习(RL),发现利用策略内数据的RL方法在保持目标任务相当或更优的性能的同时,遗忘更少。这种鲁棒性归因于RL的模式寻求特性,有助于保留先验知识。研究结果表明,使用近似策略内数据可能是减少实际应用中遗忘的有效策略。 AI
影响 提出了一种更有效的语言模型适应方法,而不会牺牲现有知识。
排序理由 该集群包含一篇详细介绍语言模型行为研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →