English(EN) Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost

AI助手在抑制过度乐于助人方面表现出不对称性困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员在训练后语言模型助手（post-trained language model assistants）中发现了一种称为边界抑制不对称性（boundary suppression asymmetry）的现象。这种不对称性意味着，虽然这些助手被训练得乐于助人和全面，但在被明确要求更狭窄的响应时，却更难抑制某些乐于助人的倾向，例如过度回答或提供过多信息。研究表明，这是由于内容预算超支（content budget overshoot）和续写持久性（continuation persistence）的结合，使得特定乐于助人的助手行为的边界纠正更加困难。 AI

影响突出了在微调 AI 助手以精确控制响应长度和细节方面可能面临的挑战。

排序理由详细介绍 AI 助手行为新现象的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Jiarui Han · 2026-05-28 04:00

Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost

arXiv:2605.27969v1 Announce Type: new Abstract: Post-trained language-model assistants are often optimized to avoid under-answering, encouraging complete, helpful, cautious, and proactive responses. We ask whether this optimization creates asymmetric controllability costs: when u…

报道来源 [1]

Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost

相关实体

相关话题