实体 Howard H Chen

Howard H Chen

PulseAugur coverage of Howard H Chen — every cluster mentioning Howard H Chen across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_115687 · Jun 29 · 04:00

研究表明强化学习可减少语言模型遗忘

一篇题为“通过实践来保留”（Retaining by Doing）的新研究论文探讨了如何在训练后适应过程中缓解语言模型的灾难性遗忘。该研究比较了监督微调（SFT）与强化学习（RL），发现利用策略内数据的RL方法在保持目标任务相当或更优的性能的同时，遗忘更少。这种鲁棒性归因于RL的模式寻求特性，有助于保留先验知识。研究结果表明，使用近似策略内数据可能是减少实际应用中遗忘的有效策略。
TOOL · CL_115678 · Jun 29 · 04:00

新的REMIX方法解决了语言模型事实遗忘问题

一篇新研究论文介绍了一种名为REMIX（随机和通用数据混合）的方法，以解决语言模型在用新数据更新时忘记先前学习信息的问题。由Howard Chen领导的研究发现，现有的微调方法在记忆事实方面通常无效，甚至可能增加幻觉。REMIX通过在后续微调阶段纳入随机生成序列或预训练数据来工作，这显著减轻了遗忘并提高了知识保留率。研究表明，REMIX鼓励模型将事实信息存储在早期层中，并在不同层之间分散存储，从而更容易回忆和操作所学信息。