一项名为DNR-Bench的新基准测试已被推出,用于评估大型语言模型避免响应特定提示的能力。在包括GPT-5.1、Claude Opus 4.8、Gemini 3 Pro和Grok 4在内的几款领先模型中,该基准测试报告的通过率为0.0%,表明在面对测试提示时,没有一款被测试的模型成功地避免生成任何输出。该基准测试的方法和代码可在GitHub上获取。 AI
影响 该基准测试突显了当前LLM中一个关键的安全故障,表明需要改进对齐和拒绝能力。
排序理由 该集群描述了一个用于评估LLM安全性的新基准测试,属于研究范畴。[lever_c_从研究降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →