研究人员引入了一种名为策略不变性的新方法来评估基于 LLM 的安全评估员的可靠性。该方法测试 LLM 的安全判决是否在评估策略的措辞或修改方式上保持一致。实验表明,当前的 LLM 评估员对细微的措辞变化高度敏感,导致在明确的案例上出现显著的判决翻转,从而将代理行为与提示措辞混淆。 AI
影响 引入了一个新的指标来评估 LLM 安全评估员,有可能提高 AI 安全评估的可靠性。
排序理由 这是一篇介绍 LLM 安全评估员评估新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →