实体 Greedy Coordinate Gradient

Greedy Coordinate Gradient

PulseAugur coverage of Greedy Coordinate Gradient — every cluster mentioning Greedy Coordinate Gradient across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 6

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

RESEARCH · CL_106008 · Jun 19 · 16:43

研究发现，自动化的LLM越狱裁判缺乏可靠性

研究人员正在质疑用于评估大型语言模型（LLM）越狱的自动化评分系统的可靠性。一项新研究发现，专用分类器倾向于过度标记攻击，而基于LLM的裁判则表现出不一致的召回率，导致所使用的裁判不同，攻击成功率差异很大。这些自动化裁判也容易受到对抗性攻击，简单的文本操纵会显著改变其分数，而专用分类器则更具鲁棒性，但可能被白盒攻击所破坏。研究结果表明，许多报告的攻击成功率可能由于这些自动化评估方法的局限性而不可靠。
RESEARCH · CL_68363 · Jun 3 · 04:00

新的防御和攻击手段针对大语言模型越狱和提示注入

研究人员正在开发新的方法来防御大型语言模型免受提示注入和越狱攻击。GuardNet 利用浅层神经网络的集成进行高效检测，而 SlotGCG 则专注于优化提示内的攻击位置以利用位置漏洞。NeuroArmor 通过将提示与安全变体进行比较来平衡安全性和有用性，提供运行时防御，而 CRI 则提出了一个框架，通过利用模型激活空间中的合规性方向来增强越狱攻击。
RESEARCH · CL_58559 · May 28 · 14:53

新研究揭示了 LLM 和 LALM 的越狱漏洞不断升级

三篇新研究论文探讨了大型语言模型 (LLM) 和大型音频语言模型 (LALM) 的漏洞和防御。第一篇论文详细介绍了音频越狱攻击和防御的分类法，强调目前的防御措施通常会牺牲可用性来换取鲁棒性。第二篇论文全面回顾了 LLM 的漏洞，对攻击和防御进行了分类，并指出了在弹性对齐和自动检测等领域的研究空白。第三篇论文介绍了“越狱规模定律”，证明了对抗性提示如何将攻击成功率从多项式增长转变为指数增长，这种现象在各种 LLM 和攻击方法中都有观察到。
TOOL · CL_56057 · May 28 · 04:00

新的Frost Training方法提升了LLM策略优化

研究人员引入了Frost Training，这是一种旨在增强一类称为交叉熵博弈（Cross-Entropy Games）任务的基于蒙特卡洛的策略优化方法。该技术利用了嵌入空间中奖励函数的梯度，这是一个先前用于越狱的信号，但现在已被证明可以改进模型训练。Frost Training在提高速度和改善模型性能以生成高分输出方面表现出色，尤其是在使用GRPO进行最大似然填充任务时。
TOOL · CL_15984 · May 5 · 04:00

新的 Logit-Gap Steering 方法可有效衡量 AI 对齐鲁棒性

研究人员开发了一种名为“拒绝-肯定对数几率差距”的新指标，用于量化已对齐语言模型的安全裕度。该指标衡量拒绝和肯定 token 对数几率之间的差异，可通过前向传播诊断进行高效计算。该研究还引入了 logit-gap steering，一种无梯度方法，可发现用于缩小此安全差距的短后缀，表明当前的对齐裕度可能很薄且易受操纵。
RESEARCH · CL_14448 · May 4 · 04:00

研究人员探讨Token位置对LLM对抗性攻击的影响

研究人员发现大型语言模型对抗性鲁棒性评估中存在一个关键的盲点。他们的研究聚焦于贪婪坐标梯度（GCG）攻击，揭示了对抗性Token在Prompt中的位置对攻击成功率有显著影响。研究结果表明，目前忽视Token位置的安全评估需要更新，以应对这种漏洞。这项研究强调了需要更全面的方法来确保LLM免受复杂的越狱技术攻击。

研究发现，自动化的LLM越狱裁判缺乏可靠性

新的防御和攻击手段针对大语言模型越狱和提示注入

新研究揭示了 LLM 和 LALM 的越狱漏洞不断升级

新的Frost Training方法提升了LLM策略优化

新的 Logit-Gap Steering 方法可有效衡量 AI 对齐鲁棒性

研究人员探讨Token位置对LLM对抗性攻击的影响