English(EN) DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization

新的DGPO框架增强了LLM的对齐和推理多样性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 17:10

研究人员推出了一种新的框架——方向一致的群体偏好优化（DGPO），旨在提高大型语言模型的对齐和推理多样性。DGPO在群体层面聚合监督信号，利用多候选比较明确地建模方向感知对齐。通过将问答实例组织成结构化集合并优化基于边际的目标，DGPO旨在区分连贯的推理路径和不一致的推理路径。实验表明，这种方法可以在各种基准测试和模型家族中带来显著的准确性提升。 AI

影响引入了一种新颖的优化技术，有望带来更强大、更一致的大型语言模型。

排序理由发布了一篇详细介绍LLM优化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Wei Wang · 2026-05-11 17:10

DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization

Although Large Language Models (LLMs) have made remarkable progress, current preference optimization methods still struggle to align directional consistency while preserving reasoning diversity. To address this limitation, we propose Directional-Groupwise Preference Optimization …

报道来源 [1]

DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization

相关实体

相关话题