English(EN) PAFO: Pareto Fairness Optimization for Personalized Reward Modeling

PAFO框架解决个性化LLM奖励模型中的偏见

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员推出PAFO，一个旨在解决大型语言模型中个性化奖励偏见的新框架。这种偏见发生在奖励模型基于多样化的用户偏好进行训练时，会不成比例地偏袒具有更普遍偏好的用户。PAFO将公平性构建为帕累托优化问题，旨在在不负面影响其他用户的情况下，提升服务不足用户的体验。该框架为不同的用户群体训练专门的模型，然后将它们的知识提炼成一个单一模型，从而全面提高准确性和公平性。 AI

影响解决了LLM个性化中的公平性问题，可能带来更公平的用户体验。

排序理由该集群包含一篇学术论文，详细介绍了用于改进LLM奖励模型公平性的新框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xiaoyan Zhao, Haoting Ni, Yang Zhang, Chunyuan Zheng, Haoxuan Li, Fuli Feng · 2026-06-09 04:00

PAFO：个性化奖励建模的帕累托公平性优化

arXiv:2606.07988v1 Announce Type: new Abstract: Large language models (LLMs) increasingly rely on reward models to align their outputs with diverse user preferences. While personalized reward models aim to capture such heterogeneity, they are often trained on imbalanced user pref…

报道来源 [1]

PAFO：个性化奖励建模的帕累托公平性优化

相关实体

相关话题