PulseAugur
实时 10:07:56
实体 Aleksandr Nikolich

Aleksandr Nikolich

PulseAugur coverage of Aleksandr Nikolich — every cluster mentioning Aleksandr Nikolich across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_107973 ·

    新研究探讨AI推理蒸馏方法的权重空间几何

    一篇新研究论文分析了用于将推理能力蒸馏到更小AI模型中的各种离线强化学习方法的权重更新的几何特性。该研究使用Qwen3-4B基础模型,在相同的数学相关数据上训练了六种不同的方法——SFT、RFT、DFT、RIFT、Offline GRPO和DPO。分析显示,虽然SFT、RFT和RIFT产生了相似的权重差值和准确率,但DFT显著不同。Offline GRPO引入了一个正交分量,而DPO占据了一个独特的子空间,在GSM8K和AIME26基…