PulseAugur
实时 06:41:41
English(EN) Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

新的TRACE框架通过令牌影响检测RAG中毒攻击

一个名为TRACE的新框架已被开发出来,用于检测检索增强生成(RAG)系统中的中毒攻击。这些攻击通过将恶意文档插入检索语料库来操纵RAG的输出。TRACE通过追踪与答案相关的令牌的影响归因,识别反复出现的高影响力关键词,并验证它们对模型预测的影响,提供了一种计算高效的方法。实验表明,TRACE在各种QA基准和LLM上都能有效地检测这些攻击,甚至能揭示攻击者指定的答案。 AI

影响 增强依赖外部数据检索的AI系统的安全性和可靠性。

排序理由 该条目是一篇学术论文,详细介绍了一种检测AI系统攻击的新框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的TRACE框架通过令牌影响检测RAG中毒攻击

报道来源 [1]

  1. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Wei-Bin Lee ·

    Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

    Retrieval-Augmented Generation (RAG) systems are vulnerable to corpus poisoning attacks that manipulate model outputs through malicious retrieved documents. Existing detection methods typically rely on auxiliary classifiers or additional LLM-based verification, introducing substa…