研究人员在训练后语言模型助手(post-trained language model assistants)中发现了一种称为边界抑制不对称性(boundary suppression asymmetry)的现象。这种不对称性意味着,虽然这些助手被训练得乐于助人和全面,但在被明确要求更狭窄的响应时,却更难抑制某些乐于助人的倾向,例如过度回答或提供过多信息。研究表明,这是由于内容预算超支(content budget overshoot)和续写持久性(continuation persistence)的结合,使得特定乐于助人的助手行为的边界纠正更加困难。 AI
影响 突出了在微调 AI 助手以精确控制响应长度和细节方面可能面临的挑战。
排序理由 详细介绍 AI 助手行为新现象的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →