实体
Alexey Gorbatovski
Alexey Gorbatovski
PulseAugur coverage of Alexey Gorbatovski — every cluster mentioning Alexey Gorbatovski across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
F-GRPO 方法通过关注罕见轨迹来改进强化学习
研究人员开发了 F-GRPO,这是一种新颖的方法,通过解决训练过程中遗漏罕见正确轨迹的问题来改进强化学习。该方法引入了一个受 Focal loss 启发的、与难度相关的缩放系数,以降低对高成功率采样组的更新权重。该技术旨在防止策略过于关注常见解决方案而忽略频率较低但正确的路径。在包括 Qwen2.5-7B 在内的 LLM 上的实证测试表明,在不增加计算成本的情况下,数学通过率和分布外性能有了显著提高。
-
Trust Region On-Policy Distillation
研究人员正在探索用于大型语言模型的策略内蒸馏(OPD)的高级技术,以提高训练稳定性和效率。几篇论文介绍了改进教师模型指导学生模型的方法,重点关注选择性学习、自适应加权和更好的信用分配。这些方法旨在克服状态无关崩溃、不可靠的监督信号和优化等挑战。