PulseAugur
实时 15:27:14
实体 SA-DPO

SA-DPO

PulseAugur coverage of SA-DPO — every cluster mentioning SA-DPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14655 ·

    研究人员提出用于LLM偏好学习的结构感知一致性

    研究人员发现,像直接偏好优化(DPO)这样用于对齐大型语言模型(LLM)的流行偏好学习方法存在理论不一致性。该研究提出了一个基于边距偏移排名的框架,以实现更好的对齐,并引入了结构感知DPO(SA-DPO)目标。这种新颖的方法根据响应之间的语义距离来调整边距,旨在改进对同义词和困难配对的处理。该论文还分析了一致性与模型容量之间的权衡,并建议重尾代理可能为有界模型提供更好的保证。