English(EN) EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent

EvoPref算法通过进化优化增强语言模型对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-10 21:50

研究人员开发了EvoPref，这是一种新颖的多目标进化算法，旨在改进大型语言模型（LLM）的对齐。与可能导致偏好崩溃和狭窄行为模式的传统基于梯度的方法不同，EvoPref维护了针对有用性、无害性和诚实性进行优化的适配器多样化种群。这种方法显著增强了偏好覆盖范围并降低了崩溃率，同时实现了具有竞争力的对齐质量，确立了进化优化作为多样化LLM对齐的可行范式。 AI

影响引入了一种新的进化优化范式，用于多样化的LLM对齐，可能提高模型的安全性和鲁棒性。

排序理由该集群包含一篇详细介绍LLM对齐新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Siu Ming Yiu · 2026-05-10 21:50

EvoPref：多目标进化优化发现超越梯度下降的 LLM 多样化对齐方法

Gradient-based preference optimization methods for large language model (LLM) alignment suffer from preference collapse, converging to narrow behavioral modes while neglecting preference diversity. We introduce EvoPref, a multi-objective evolutionary algorithm that maintains popu…

报道来源 [1]

EvoPref：多目标进化优化发现超越梯度下降的 LLM 多样化对齐方法

相关实体

相关话题