English(EN) Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges

新的 LLM 安全评估员测试揭示了当前评估方法的不可靠性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员引入了一种名为策略不变性的新方法来评估基于 LLM 的安全评估员的可靠性。该方法测试 LLM 的安全判决是否在评估策略的措辞或修改方式上保持一致。实验表明，当前的 LLM 评估员对细微的措辞变化高度敏感，导致在明确的案例上出现显著的判决翻转，从而将代理行为与提示措辞混淆。 AI

影响引入了一个新的指标来评估 LLM 安全评估员，有可能提高 AI 安全评估的可靠性。

排序理由这是一篇介绍 LLM 安全评估员评估新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shihao Weng, Yang Feng, Xiaofei Xie · 2026-05-08 04:00

Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges

arXiv:2605.06161v1 Announce Type: new Abstract: LLM-as-a-Judge pipelines have become the de facto evaluator for agent safety, yet existing benchmarks treat their verdicts as ground-truth proxies without checking whether the verdicts depend on the agent's behavior or merely on how…