实体 DOG-DPO

DOG-DPO

PulseAugur coverage of DOG-DPO — every cluster mentioning DOG-DPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_79821 · Jun 9 · 04:00

新的DOG-DPO框架通过几何数据选择改进LLM安全对齐

研究人员开发了DOG-DPO，一个用于选择偏好数据以改进大型语言模型安全对齐的新框架。与以往单独对偏好对进行评分的方法不同，DOG-DPO将偏好对视为几何信号，将它们表示为模型空间中的方向。这种方法将多数据集偏好的几何结构分解为全局和数据集特定的组件，以确保对齐方向的广泛覆盖。实验表明，DOG-DPO仅使用11%的数据就能取得显著的安全提升，为现有方法提供了一种更快、更有效率的替代方案。