实体 Diff.-NPO

Diff.-NPO

PulseAugur coverage of Diff.-NPO — every cluster mentioning Diff.-NPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_20330 · May 6 · 04:50

扩散模型利用博弈论和纳什均衡实现人类偏好对齐

研究人员推出了一种新颖的框架——扩散纳什偏好优化（Diff.-NPO），用于将文本到图像的扩散模型与人类偏好对齐。该方法超越了直接偏好优化（DPO）等传统方法，从博弈论的角度构建了扩散模型对齐问题。Diff.-NPO鼓励策略通过与自身博弈来改进自身，旨在比现有模型更全面地捕捉人类偏好。