目前监督AI系统的方法,依赖于人类监督和基础AI助手,随着AI能力的进步正变得不足。这些方法难以应对日益复杂的行为、由于奖励攻击导致的人类标签不可靠以及对基准评估的认知。为解决此问题,作者提出开发专注于监督任务的、超人类的专用AI助手。这些助手可以基于自我验证的数据进行训练,将监督能力与通用AI能力脱钩,并促进安全研究的普及。 AI
排序理由 该条目是研究人员关于一种新颖AI安全研究方法的观点文章,符合“研究”类别。
在 Bounded Regret (Jacob Steinhardt) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →