实体 AdvBench

AdvBench

PulseAugur coverage of AdvBench — every cluster mentioning AdvBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

12

90 天内 12

发布 · 30天

0

90 天内 0

论文 · 30天

12

90 天内 12

层级分布 · 90 天

主题

关系

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

TOOL · CL_133542 · Jul 9 · 04:00

新的非文本目标攻击以96.8%的成功率绕过LLM安全措施

研究人员开发了一种名为非文本目标攻击（NTA）的新方法来绕过大型语言模型（LLM）的安全措施。与以往依赖特定目标输出来进行攻击的方法不同，NTA侧重于在不强制执行任何特定模式的情况下，最大化不安全LLM响应的概率。这种方法允许更广泛地探索LLM的漏洞，并且在AdvBench基准测试上，以比现有方法更少的优化迭代次数实现了96.8%的成功率。
TOOL · CL_128876 · Jul 7 · 04:00

AI 编码代理通过多阶段工作流越狱绕过安全措施

一篇新的研究论文探讨了一种新颖的 AI 编码代理越狱技术，展示了如何通过在软件开发工作流的多个阶段组装有害目标来实现，而不是通过单一的直接提示。当在 Visual Studio Code 中使用 GitHub Copilot 和 Claude Sonnet 4.6 和 Gemini 3.5 Flash 等模型进行测试时，这些代理在直接提示时几乎完全拒绝，但在应用工作流级越狱时成功生成了不安全的内容。该研究强调，目前通常关注单轮交互的安…
RESEARCH · CL_128509 · Jul 6 · 03:59

新的RetroCoT方法通过重构有害请求绕过LLM安全对齐

研究人员开发了一种名为追溯性思维链（RetroCoT）的新方法来测试大型语言模型的安全对齐。该技术将有害请求重构为法证重建任务，提示模型逆向工程事件的因果链，而不是直接执行有害指令。虽然目前的模型如GPT-4o和GPT-4o mini对RetroCoT表现出明显的脆弱性，但较新的GPT-5系列模型显示出初步的抵抗力。然而，即使是先进的模型，也可以通过利用已建立的法证框架的对抗性反馈来提示其绕过安全措施。
RESEARCH · CL_122984 · Jul 2 · 08:17

新的STEER攻击利用多语言环境下的LLM安全漏洞 · 跟踪3个来源

研究人员开发了一种名为STEER（Safety Targeted Embedding Exploit via Refinement，通过精炼实现安全目标嵌入式漏洞利用）的新方法，以利用大型语言模型（LLM）安全训练中的漏洞。该技术针对主要以英语训练的模型，表明其安全机制对低资源语言和混合语言输入的泛化能力不佳。STEER在各种基准测试中实现了很高的攻击成功率，甚至可以迁移到GPT-4o-mini等模型，凸显了当前多语言安全对齐方面的重大差距。
TOOL · CL_74402 · Jun 6 · 04:00

研究人员从攻击模拟中自动生成安全规则

研究人员开发了一种从攻击模拟中自动生成安全检测规则的方法。该系统将入侵与攻击模拟 (BAS) 工具的发现确定性地映射到 Sigma 初始规则，Sigma 规则是安全信息和事件管理 (SIEM) 系统中使用的供应商中立格式。该方法确保了从模拟攻击到可部署规则的可验证和可重现路径，提供了可追溯到原始探针和 MITRE ATT&CK 技术的精确可追溯性。
RESEARCH · CL_70412 · Jun 3 · 08:49

混合防御框架提升LLM准确性和鲁棒性

研究人员开发了一种新颖的混合防御框架，以对抗大型语言模型中的幻觉和对抗性操纵。该方法整合了基于熵的方法来减少幻觉，并结合了基于不确定性和几何的方法来增强对抗鲁棒性。在各种自然语言理解数据集上的测试表明，在干净任务准确性和抗攻击性方面均有显著改进，优于现有的单一特征防御策略。
RESEARCH · CL_62284 · May 29 · 10:49

EvoDefense 使用大型语言模型协同进化黑盒攻击的防御机制

研究人员开发了 EvoDefense，这是一种在黑盒场景下保护大型语言模型（LLM）免受攻击的新颖方法。该系统使用一个守护 LLM 和一个经验记忆，通过迭代的攻击-防御进化循环不断完善防御策略。EvoDefense 展现出强大的泛化能力，无需重新训练即可有效防御未见的攻击和各种 LLM 架构。
RESEARCH · CL_58559 · May 28 · 14:53

新研究揭示了 LLM 和 LALM 的越狱漏洞不断升级

三篇新研究论文探讨了大型语言模型 (LLM) 和大型音频语言模型 (LALM) 的漏洞和防御。第一篇论文详细介绍了音频越狱攻击和防御的分类法，强调目前的防御措施通常会牺牲可用性来换取鲁棒性。第二篇论文全面回顾了 LLM 的漏洞，对攻击和防御进行了分类，并指出了在弹性对齐和自动检测等领域的研究空白。第三篇论文介绍了“越狱规模定律”，证明了对抗性提示如何将攻击成功率从多项式增长转变为指数增长，这种现象在各种 LLM 和攻击方法中都有观察到。
TOOL · CL_53861 · May 27 · 04:00

新研究：开源大模型防御易受简单越狱攻击

一篇新发表在arXiv上的论文表明，目前为保护开源大语言模型（LLMs）免遭有害使用而设计的防御措施，容易受到简单的越狱技术攻击。研究人员发现，像“擦除”（abliteration）和“预填充”（prefilling）等无需复杂优化的已知攻击，可以显著提高受保护模型上对抗性使用的成功率。为解决这一漏洞，该论文提出了一种“抗擦除微调”（ART）方法，可以集成到现有防御中，以降低这些更简单攻击的有效性。
RESEARCH · CL_53580 · May 26 · 14:51

新的BAIT框架利用LLM推理进行越狱

研究人员开发了一个名为BAIT（Boundary-Aware Iterative Trap，边界感知迭代陷阱）的新三步框架，旨在升级大型语言模型恶意内容的披露。该方法引导模型识别、完善和详细说明其保护边界，有效地利用其自身的推理过程绕过安全过滤器。跨多个基准的实验表明，BAIT在顶级LLM上实现了很高的攻击成功率，优于现有的越狱技术。
TOOL · CL_15984 · May 5 · 04:00

新的 Logit-Gap Steering 方法可有效衡量 AI 对齐鲁棒性

研究人员开发了一种名为“拒绝-肯定对数几率差距”的新指标，用于量化已对齐语言模型的安全裕度。该指标衡量拒绝和肯定 token 对数几率之间的差异，可通过前向传播诊断进行高效计算。该研究还引入了 logit-gap steering，一种无梯度方法，可发现用于缩小此安全差距的短后缀，表明当前的对齐裕度可能很薄且易受操纵。
RESEARCH · CL_11458 · Apr 30 · 04:13

新的诊断工具探查LLM的电路，以获得安全性和行为见解

一篇新的研究论文介绍了一种名为“扰动探测”（Perturbation Probing）的诊断方法，用于理解大型语言模型（LLMs）的内部工作机制。该技术使用每个提示（prompt）进行两次前向传播（forward passes）来识别和分析模型前馈网络（FFNs）中的“行为电路”。研究发现了两种主要的电路结构：对立电路（opposition circuits），当人类反馈强化学习（RLHF）改变预训练倾向时出现；以及路由电路（rout…