PulseAugur
实时 01:00:50
English(EN) EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent

EvoPref算法通过进化优化增强语言模型对齐

研究人员开发了EvoPref,这是一种新颖的多目标进化算法,旨在改进大型语言模型(LLM)的对齐。与可能导致偏好崩溃和狭窄行为模式的传统基于梯度的方法不同,EvoPref维护了针对有用性、无害性和诚实性进行优化的适配器多样化种群。这种方法显著增强了偏好覆盖范围并降低了崩溃率,同时实现了具有竞争力的对齐质量,确立了进化优化作为多样化LLM对齐的可行范式。 AI

影响 引入了一种新的进化优化范式,用于多样化的LLM对齐,可能提高模型的安全性和鲁棒性。

排序理由 该集群包含一篇详细介绍LLM对齐新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

EvoPref算法通过进化优化增强语言模型对齐

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Siu Ming Yiu ·

    EvoPref:多目标进化优化发现超越梯度下降的 LLM 多样化对齐方法

    Gradient-based preference optimization methods for large language model (LLM) alignment suffer from preference collapse, converging to narrow behavioral modes while neglecting preference diversity. We introduce EvoPref, a multi-objective evolutionary algorithm that maintains popu…