PulseAugur
实时 13:54:29
English(EN) Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost

AI助手在抑制过度乐于助人方面表现出不对称性困难

研究人员在训练后语言模型助手(post-trained language model assistants)中发现了一种称为边界抑制不对称性(boundary suppression asymmetry)的现象。这种不对称性意味着,虽然这些助手被训练得乐于助人和全面,但在被明确要求更狭窄的响应时,却更难抑制某些乐于助人的倾向,例如过度回答或提供过多信息。研究表明,这是由于内容预算超支(content budget overshoot)和续写持久性(continuation persistence)的结合,使得特定乐于助人的助手行为的边界纠正更加困难。 AI

影响 突出了在微调 AI 助手以精确控制响应长度和细节方面可能面临的挑战。

排序理由 详细介绍 AI 助手行为新现象的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Jiarui Han ·

    Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost

    arXiv:2605.27969v1 Announce Type: new Abstract: Post-trained language-model assistants are often optimized to avoid under-answering, encouraging complete, helpful, cautious, and proactive responses. We ask whether this optimization creates asymmetric controllability costs: when u…