研究人员推出了 OpenSafeIntent,这是一个新的基准,旨在评估 AI 模型在同一任务的不同用户意图下保持安全性的能力。该基准使用受控的提示集,包括任务的良性、双重用途和恶意变体,以评估模型是否能够适当校准其协助。研究结果表明,当意图发生变化时,模型通常无法保持安全,双重用途行为很脆弱,并且将风险请求重构为更安全任务的响应不太可能违反安全界限。 AI
影响 该基准可能会带来更强大的 AI 安全评估,促使模型更好地处理细微的用户意图并减少有害输出。
排序理由 该集群包含一篇介绍 AI 安全评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →