PulseAugur
实时 11:53:14
实体 Siddharth Aphale

Siddharth Aphale

PulseAugur coverage of Siddharth Aphale — every cluster mentioning Siddharth Aphale across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_98026 ·

    AI 研究:SFT 过度训练导致代码生成模型排名反转

    一篇新的研究论文探讨了在强化学习与人类反馈(RLHF)用于代码生成模型时,监督微调(SFT)过度训练的现象。该研究以 Qwen2.5-Coder-3B 和 DeepSeek-Coder-6.7B 为例,发现 SFT 会压缩奖励的分布,导致排名反转,即最初有希望的检查点在 RLHF 后表现不佳。研究人员提出了一种使用预 RL 和早期 RL 熵监测的两阶段诊断方法,以识别并停止失败的运行,并指出标准的正则化技术未能解决该问题。