一篇新的研究论文探讨了在自主AI代理中确定何时进行干预的挑战,特别是在长周期任务中。研究发现,代理可能会陷入“饱和陷阱”,表现出无恢复信号,导致持续的干预触发。此外,LLM裁判需要大量的上下文才能仅比随机猜测好一点点,并且成本远高于更简单的方法。至关重要的是,人类标注者本身在干预时机和类型上的一致性很低,这表明最优干预时机的概念是不可靠的。 AI
影响 强调了AI安全和控制方面的根本性挑战,表明当前干预自主代理的方法是不可靠的。
排序理由 关于AI安全和代理行为的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →