PulseAugur
实时 08:14:05
实体 Yinghui He

Yinghui He

PulseAugur coverage of Yinghui He — every cluster mentioning Yinghui He across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_86859 ·

    新AI训练方法利用自我修正提升性能

    研究人员推出了一种名为Self-Distillation Zero (SD-Zero) 的新方法,以提高语言模型训练效率。该技术训练单个模型同时充当生成器和修正器,利用二元奖励创建密集的、token级别的监督。SD-Zero在数学和代码推理任务上展示了显著的性能提升,在可比的训练样本预算下,其表现优于Rejection Fine-Tuning和GRPO等现有基线。