English(EN) Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

新的Cordyceps攻击通过数据投毒实现对大型语言模型的隐蔽控制

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员开发了一种名为Cordyceps的新型数据投毒技术，能够实现对大型语言模型（LLMs）的隐蔽控制攻击。与依赖固定触发短语的先前方法不同，Cordyceps通过语义关联教会LLMs隐藏恶意指令。该方法在绕过现有防御方面取得了显著成功，包括异常值检测、干净数据正则化和提示注入防御，即使只有一小部分被投毒的数据也能实现高攻击成功率。 AI

影响这项研究揭示了大型语言模型的一个新颖漏洞，可能影响在未经整理的数据上训练的AI系统的安全性和可信度。

排序理由该集群包含一篇详细介绍攻击大型语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zedian Shao, Charles Fleming, Teodora Baluta · 2026-05-27 04:00

Cordyceps：通过数据投毒对大型语言模型进行隐蔽控制攻击

arXiv:2605.26595v1 Announce Type: cross Abstract: Large language models (LLMs) are often fine-tuned on uncurated text datasets that adversaries can poison. Existing poisoning attacks primarily rely on fixed trigger phrases that defenses such as outlier detection, clean-data regul…

报道来源 [1]

Cordyceps：通过数据投毒对大型语言模型进行隐蔽控制攻击

相关实体

相关话题