PulseAugur
实时 11:23:47
English(EN) Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

新的Cordyceps攻击通过数据投毒实现对大型语言模型的隐蔽控制

研究人员开发了一种名为Cordyceps的新型数据投毒技术,能够实现对大型语言模型(LLMs)的隐蔽控制攻击。与依赖固定触发短语的先前方法不同,Cordyceps通过语义关联教会LLMs隐藏恶意指令。该方法在绕过现有防御方面取得了显著成功,包括异常值检测、干净数据正则化和提示注入防御,即使只有一小部分被投毒的数据也能实现高攻击成功率。 AI

影响 这项研究揭示了大型语言模型的一个新颖漏洞,可能影响在未经整理的数据上训练的AI系统的安全性和可信度。

排序理由 该集群包含一篇详细介绍攻击大型语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的Cordyceps攻击通过数据投毒实现对大型语言模型的隐蔽控制

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Zedian Shao, Charles Fleming, Teodora Baluta ·

    Cordyceps:通过数据投毒对大型语言模型进行隐蔽控制攻击

    arXiv:2605.26595v1 Announce Type: cross Abstract: Large language models (LLMs) are often fine-tuned on uncurated text datasets that adversaries can poison. Existing poisoning attacks primarily rely on fixed trigger phrases that defenses such as outlier detection, clean-data regul…