一位安全研究人员演示了一种出奇简单的污染大型语言模型(LLM)的方法,方法是将恶意数据嵌入其训练集中。这项技术只需要几个精心设计的词语,就可以微妙地改变模型的行为,使其容易受到特定攻击。研究人员强调,所利用的漏洞通常比预期的要基本。 AI
影响 突出了LLM训练数据中一个关键但简单的漏洞,可能影响模型的安全性和可靠性。
排序理由 详细介绍针对LLM的新型攻击向量的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — sigmoid.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →