English(EN) DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

新的DOG-DPO框架通过几何数据选择改进LLM安全对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了DOG-DPO，一个用于选择偏好数据以改进大型语言模型安全对齐的新框架。与以往单独对偏好对进行评分的方法不同，DOG-DPO将偏好对视为几何信号，将它们表示为模型空间中的方向。这种方法将多数据集偏好的几何结构分解为全局和数据集特定的组件，以确保对齐方向的广泛覆盖。实验表明，DOG-DPO仅使用11%的数据就能取得显著的安全提升，为现有方法提供了一种更快、更有效率的替代方案。 AI

影响通过减少数据需求，提高了LLM安全训练的效率，可能加速更安全模型的部署。

排序理由该集群包含一篇详细介绍LLM安全对齐新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yi Nian, Tiankai Yang, Yudi Zhang, Qi Pan, Zelong Xu, Shenzhe Zhu, Qingqing Luan, Yue Huang, Xiangliang Zhang, Yue Zhao · 2026-06-09 04:00

DOG-DPO: 安全对齐的几何动态优化

arXiv:2606.07678v1 Announce Type: cross Abstract: Safety alignment for large language models relies on preference data, but current pipelines often train on large, redundant datasets. Existing data selection methods typically score each preference pair independently, collapsing d…

报道来源 [1]

DOG-DPO: 安全对齐的几何动态优化

相关实体

相关话题