English(EN) T-POP: Test-Time Personalization with Online Preference Feedback

新的T-POP方法通过实时用户反馈个性化LLM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了T-POP，一种使用在线偏好反馈实时个性化大型语言模型的新方法。该方法通过从用户交互中学习奖励函数而不更新LLM的参数来解决冷启动问题。T-POP采用对决学习算法来有效地平衡用户偏好的探索和所学知识的利用，在数据效率和个性化速度方面均显著优于现有方法。 AI

影响能够快速、数据高效地为新用户个性化LLM，无需重新训练模型。

排序理由该集群包含一篇详细介绍LLM个性化新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zikun Qu, Min Zhang, Mingze Kong, Xiang Li, Zhiwei Shang, Zhiyong Wang, Yikun Ban, Shuang Qiu, Yao Shu, Zhongxiang Dai · 2026-06-02 04:00

T-POP: Test-Time Personalization with Online Preference Feedback

arXiv:2509.24696v2 Announce Type: replace-cross Abstract: Personalizing large language models (LLMs) to individual user preferences is a critical step beyond generating generically helpful responses. However, current personalization methods are ill-suited for new users, as they t…