PulseAugur
实时 11:38:21
实体 Regret-based Preference Optimization (RePO)

Regret-based Preference Optimization (RePO)

PulseAugur coverage of Regret-based Preference Optimization (RePO) — every cluster mentioning Regret-based Preference Optimization (RePO) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_79751 ·

    新的RePO框架通过遗憾最小化增强大语言模型训练

    研究人员引入了一个名为基于遗憾的偏好优化(RePO)的新框架,用于利用人类反馈训练大语言模型。RePO将过程从奖励最大化重新构建为遗憾最小化,基于预期结果和反事实比较来模拟人类偏好。在数学推理和人类偏好数据集上的实验表明,RePO提供了改进的性能和更好的人类对齐。