PulseAugur
实时 02:56:43
实体 bycloud

bycloud

PulseAugur coverage of bycloud — every cluster mentioning bycloud across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_81761 ·

    研究发现 RLHF 以不同于 SFT 的方式更新 LLM 权重

    新研究表明,人类反馈强化学习 (RLHF) 以不同于预训练或监督微调的方式更新 LLM 权重。这些 RLHF 更新更稀疏,并且倾向于较少地旋转模型的principal subspaces,表明它们在修改模型行为方面存在定性差异。研究结果表明,RLHF 可能主要激发现有能力,而不是创造新能力,并且与监督微调相比,对不相关任务的性能下降可能更少。