一个名为TRACE的新框架已被开发出来,用于检测检索增强生成(RAG)系统中的中毒攻击。这些攻击通过将恶意文档插入检索语料库来操纵RAG的输出。TRACE通过追踪与答案相关的令牌的影响归因,识别反复出现的高影响力关键词,并验证它们对模型预测的影响,提供了一种计算高效的方法。实验表明,TRACE在各种QA基准和LLM上都能有效地检测这些攻击,甚至能揭示攻击者指定的答案。 AI
影响 增强依赖外部数据检索的AI系统的安全性和可靠性。
排序理由 该条目是一篇学术论文,详细介绍了一种检测AI系统攻击的新框架。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →