PulseAugur
实时 03:31:46
实体 Diff.-NPO

Diff.-NPO

PulseAugur coverage of Diff.-NPO — every cluster mentioning Diff.-NPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_20330 ·

    扩散模型利用博弈论和纳什均衡实现人类偏好对齐

    研究人员推出了一种新颖的框架——扩散纳什偏好优化(Diff.-NPO),用于将文本到图像的扩散模型与人类偏好对齐。该方法超越了直接偏好优化(DPO)等传统方法,从博弈论的角度构建了扩散模型对齐问题。Diff.-NPO鼓励策略通过与自身博弈来改进自身,旨在比现有模型更全面地捕捉人类偏好。