English(EN) Robustness of Prompting: Enhancing Robustness of Large Language Models Against Prompting Attacks

新研究探讨LLM提示攻击与防御

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-27 04:00

两篇新研究论文探讨了大型语言模型（LLM）和大型视觉语言模型（LVLM）的漏洞和防御。第一篇论文介绍了提示的鲁棒性（RoP），这是一种旨在通过纠正输入错误和生成最优引导提示来增强LLM对抗对抗性扰动的韧性的策略。第二篇论文详细介绍了一种多轮自适应提示攻击（MAPA），该攻击通过交替进行文本-视觉攻击并迭代优化攻击轨迹来放大恶意响应，从而针对LVLM，并在多个基准测试中优于现有方法。 AI

影响新研究突显了LLM和LVLM的漏洞，表明需要更鲁棒的提示策略和防御来应对复杂的攻击。

排序理由两篇学术论文发布在arXiv上，详细介绍了LLM鲁棒性和LVLM攻击的新方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Lin Mu, Guowei Chu, Li Ni, Lei Sang, Yiwen Zhang · 2026-05-27 04:00

提示的鲁棒性：增强大型语言模型对抗提示攻击的鲁棒性

arXiv:2506.03627v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across various tasks by effectively utilizing a prompting strategy. However, they are highly sensitive to input perturbations, such as typographical err…
arXiv cs.CV TIER_1 English(EN) · In Chong Choi, Jiacheng Zhang, Feng Liu, Yiliao Song · 2026-05-29 04:00

大型视觉语言模型上的多轮自适应提示攻击

arXiv:2602.14399v2 Announce Type: replace Abstract: Multi-turn jailbreak attacks have proven effective against text-only large language models (LLMs), where malicious content is gradually introduced to bypass safety alignment. However, effectively extending such attacks to large …

报道来源 [2]

提示的鲁棒性：增强大型语言模型对抗提示攻击的鲁棒性

大型视觉语言模型上的多轮自适应提示攻击

相关实体

相关话题