English(EN) Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

新的TRACE框架通过令牌影响检测RAG中毒攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 11:39

一个名为TRACE的新框架已被开发出来，用于检测检索增强生成（RAG）系统中的中毒攻击。这些攻击通过将恶意文档插入检索语料库来操纵RAG的输出。TRACE通过追踪与答案相关的令牌的影响归因，识别反复出现的高影响力关键词，并验证它们对模型预测的影响，提供了一种计算高效的方法。实验表明，TRACE在各种QA基准和LLM上都能有效地检测这些攻击，甚至能揭示攻击者指定的答案。 AI

影响增强依赖外部数据检索的AI系统的安全性和可靠性。

排序理由该条目是一篇学术论文，详细介绍了一种检测AI系统攻击的新框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Wei-Bin Lee · 2026-06-24 11:39

Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

Retrieval-Augmented Generation (RAG) systems are vulnerable to corpus poisoning attacks that manipulate model outputs through malicious retrieved documents. Existing detection methods typically rely on auxiliary classifiers or additional LLM-based verification, introducing substa…

报道来源 [1]

Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

相关实体

相关话题