English(EN) Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences

新框架在联邦学习中解耦大语言模型用户偏好

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一个名为“带 Gumbel-Softmax 先验的联邦变分偏好对齐”（FedVPA-GP）的新框架，以解决在联邦学习环境中个性化大语言模型的挑战。该方法旨在解耦用户之间冲突的偏好，例如有用性与无害性，同时不损害数据隐私。通过引入联邦混合先验和正交损失，FedVPA-GP 稳定了变分推断，并强制分离偏好原型，在实验中优于单一模型基线。 AI

影响通过以保护隐私的方式解耦冲突的用户偏好，实现更细致和个性化的大语言模型行为。

排序理由这是一篇详细介绍大语言模型个性化新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jabin Koo, Hoyoung Kim, Minwoo Jang, Jungseul Ok · 2026-06-01 04:00

用于个性化用户偏好的联邦变分偏好对齐与Gumbel-Softmax先验

arXiv:2605.30873v1 Announce Type: cross Abstract: Federated Learning (FL) offers a privacy-preserving pathway for aligning Large Language Models (LLMs); however, existing frameworks typically enforce a monolithic reward model, inevitably averaging out inherently conflicting user …

报道来源 [1]

用于个性化用户偏好的联邦变分偏好对齐与Gumbel-Softmax先验

相关实体

相关话题