PulseAugur
实时 14:06:12
实体 Yuqian Fu

Yuqian Fu

PulseAugur coverage of Yuqian Fu — every cluster mentioning Yuqian Fu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06734 ·

    研究人员改进 On-Policy Distillation 以实现更稳定的 LLM 训练

    研究人员在 On-Policy Distillation (OPD) 的经验性失效模式方面取得了重大发现,OPD 是一种用于大型语言模型(LLM)训练后(post-training)的技术。标准实现依赖于采样令牌的对数比(log-ratios),这可能导致学习信号不稳定,尤其是在长序列中,当前缀与教师模型的典型输出出现分歧时。为解决此问题,该论文提出了一种名为“教师 Top-K 局部支持匹配”(teacher top-K local …