研究人员发现了一种与AI模型在生成过程中如何处理安全对齐相关的新漏洞。这种“推理时漏洞”意味着,即使是具有初始安全措施的模型,也可以通过在其生成序列的各个点进行短暂干预,被引导产生有害输出。研究表明,目前通常关注初始输出的对齐方法是不够的。为了提高鲁棒性,研究人员建议直接将模型与其生成轨迹对齐,在训练过程中模拟序列中途的扰动。 AI
影响 突出了当前AI安全对齐中的一个关键差距,表明需要新的训练方法来实现模型的鲁棒行为。
排序理由 学术论文,详细介绍了新的AI安全漏洞和提出的缓解措施。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →