实体 JailbreakBench

JailbreakBench

PulseAugur coverage of JailbreakBench — every cluster mentioning JailbreakBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

7

90 天内 7

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

RESEARCH · CL_122984 · Jul 2 · 08:17

新的STEER攻击利用多语言环境下的LLM安全漏洞 · 跟踪3个来源

研究人员开发了一种名为STEER（Safety Targeted Embedding Exploit via Refinement，通过精炼实现安全目标嵌入式漏洞利用）的新方法，以利用大型语言模型（LLM）安全训练中的漏洞。该技术针对主要以英语训练的模型，表明其安全机制对低资源语言和混合语言输入的泛化能力不佳。STEER在各种基准测试中实现了很高的攻击成功率，甚至可以迁移到GPT-4o-mini等模型，凸显了当前多语言安全对齐方面的重大差距。
RESEARCH · CL_109527 · Jun 24 · 13:00

研究发现，编码器分类器可提供经济高效的LLM安全评估

一篇新的研究论文探讨了编码器分类器（特别是来自ModernBERT家族的分类器）作为评估大型语言模型输出安全性的LLM基础评估器的经济高效替代方案的有效性。该研究将这些编码器分类器与各种LLM评估器和基于规则的方法在不同的对抗性攻击技术下进行了基准测试。研究结果表明，编码器分类器在识别有害内容方面可以提供可比的性能，同时具有更低的延迟和成本，为LLM安全评估提供了实用指导。
TOOL · CL_72641 · Jun 5 · 04:00

新的 CHASE 框架通过对抗性强化学习提升 LLM 安全性

研究人员开发了 CHASE，一个新颖的闭环红蓝对抗框架，旨在增强大型语言模型 (LLM) 的安全性。该系统包含一个共同进化的黑盒攻击者和一个安全对齐的防御者，并为两个组件都使用了强化学习。CHASE 在保持对良性提示零误拒绝率的同时，显著减少了成功的对抗性重写，表明这是一种更通用的 LLM 安全加固方法。
RESEARCH · CL_70407 · Jun 3 · 06:01

同人小说子类型用于越狱对齐的LLM

研究人员开发了一种新颖的越狱技术，用于对齐大型语言模型，该技术利用了同人小说子类型。该方法使用来自十二个不同Archive of Our Own (AO3) 子类型的段落来嵌入有害行为，绕过传统防御。该攻击将八个LLM的攻击成功率（ASR）从0.278显著提高到0.731，表明其有效性源于写作风格而非提示结构。提出的防御措施被发现无效，这表明需要转向基于语域的攻击。
RESEARCH · CL_53580 · May 26 · 14:51

新的BAIT框架利用LLM推理进行越狱

研究人员开发了一个名为BAIT（Boundary-Aware Iterative Trap，边界感知迭代陷阱）的新三步框架，旨在升级大型语言模型恶意内容的披露。该方法引导模型识别、完善和详细说明其保护边界，有效地利用其自身的推理过程绕过安全过滤器。跨多个基准的实验表明，BAIT在顶级LLM上实现了很高的攻击成功率，优于现有的越狱技术。
RESEARCH · CL_50991 · May 26 · 04:00

新的防御措施通过语义分析和自我反思来应对LLM对抗性提示

两篇新的研究论文提出了防御大型语言模型（LLM）对抗性提示的先进方法。第一种方法，对抗性提示解耦（APD），使用语义分解和基于图的分析来识别和中和提示中的恶意组件，将有害输出减少了85%以上。第二种方法，Reflect-Guard，通过引入思维链自我反思来增强LLM安全分类器，显著提高了其检测伪装恶意意图的能力，并在参数更新极少的情况下将攻击成功率降低了82%以上。
TOOL · CL_42495 · May 20 · 16:27

新的LASH框架通过结合攻击方法来增强LLM越狱能力

研究人员开发了LASH，一个旨在增强大型语言模型越狱能力的新型框架。LASH自适应地组合了来自多种现有攻击方法的输出，并将它们视为种子提示。这种方法利用了不同攻击家族的互补优势，以提高针对各种模型和危害类别的成功率。在JailbreakBench数据集上的评估中，LASH与最先进的基线方法相比，以显著更少的查询实现了高攻击成功率。