研究人员开发了一个名为任意偏好映射(APM)的新基准,用于评估大型语言模型在适应用户隐式风格偏好方面的能力。APM基准使用随机映射将用户属性与响应原则解耦,防止模型依赖刻板印象,并迫使模型从对话历史中推断偏好。使用此方法对Llama-3.1-8B和Qwen-3.5-27B进行的实验表明,基于路由的个性化方法最有效,而检索增强生成(RAG)和软提示优化等其他方法改进有限。 AI
影响 引入了一种新颖的LLM个性化评估方法,有望改善用户体验和模型适应性。
排序理由 学术论文,介绍用于评估LLM能力的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →