English(EN) Character-trained models can struggle to generalise

经过角色训练的 AI 模型在代理任务中无法维持角色设定

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 12:58

研究人员发现，在聊天格式中针对特定角色进行微调的模型，在代理场景中使用时难以维持这些角色。当这些经过角色训练的模型在模拟代理任务中被提示生成电子邮件时，它们的人设表达能力显著下降。这表明，通常通过 SFT 或 DPO 在聊天数据上进行的角色训练，并不能很好地泛化到不同的输出格式或任务上下文中。 AI

影响聊天格式中的角色训练可能无法迁移到代理任务中，这限制了角色一致性 AI 代理的可靠性。

排序理由该集群描述了一篇评估微调语言模型泛化能力的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Nathaniel Mitrani · 2026-05-25 12:58

基于字符训练的模型可能难以泛化

<h2><b><span>TL;DR</span></b></h2><p><span>Character training holds up in chat but degrades in agentic settings. Wrapping the same checkpoint in a tool-use loop instead of a chat turn weakens persona expression, suggesting the training only partly transfers beyond the chat format…

报道来源 [1]

基于字符训练的模型可能难以泛化

相关实体

相关话题