实体 SA-DPO

SA-DPO

PulseAugur coverage of SA-DPO — every cluster mentioning SA-DPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_14655 · Apr 30 · 11:24

研究人员提出用于LLM偏好学习的结构感知一致性

研究人员发现，像直接偏好优化（DPO）这样用于对齐大型语言模型（LLM）的流行偏好学习方法存在理论不一致性。该研究提出了一个基于边距偏移排名的框架，以实现更好的对齐，并引入了结构感知DPO（SA-DPO）目标。这种新颖的方法根据响应之间的语义距离来调整边距，旨在改进对同义词和困难配对的处理。该论文还分析了一致性与模型容量之间的权衡，并建议重尾代理可能为有界模型提供更好的保证。