实体 Regret-based Preference Optimization (RePO)

Regret-based Preference Optimization (RePO)

PulseAugur coverage of Regret-based Preference Optimization (RePO) — every cluster mentioning Regret-based Preference Optimization (RePO) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
模型发布 1

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_79751 · Jun 9 · 04:00

新的RePO框架通过遗憾最小化增强大语言模型训练

研究人员引入了一个名为基于遗憾的偏好优化（RePO）的新框架，用于利用人类反馈训练大语言模型。RePO将过程从奖励最大化重新构建为遗憾最小化，基于预期结果和反事实比较来模拟人类偏好。在数学推理和人类偏好数据集上的实验表明，RePO提供了改进的性能和更好的人类对齐。

新的RePO框架通过遗憾最小化增强大语言模型训练