PulseAugur
实时 04:39:18
实体 DiNa-LRM

DiNa-LRM

PulseAugur coverage of DiNa-LRM — every cluster mentioning DiNa-LRM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-25 research_milestone Publication of a paper introducing DiNa-LRM, a diffusion-native latent reward model. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_48816 ·

    扩散模型获得原生潜在奖励建模

    研究人员开发了DiNa-LRM,一种新颖的扩散原生潜在奖励模型,旨在改进扩散和流匹配模型的偏好学习。这种新方法直接在有噪声的扩散状态下进行偏好学习,克服了使用视觉语言模型(VLM)提供奖励时出现的域不匹配问题。DiNa-LRM在性能上可与最先进的VLM相媲美,但计算成本显著降低,从而实现更快、更高效的模型对齐。