English(EN) When Interpretability Becomes a Liability: Adversarial Attacks on CBM Concept Layers

新的CBM漏洞暴露了可解释AI的对抗性攻击风险

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员发现了一种新的概念瓶颈模型（CBM）漏洞，CBM是一种可解释的机器学习架构。研究表明，即使输入扰动很小，操纵CBM中的显式概念激活也会导致灾难性的错误分类。为了应对这一问题，研究人员开发了一种名为SPECTRA的新防御机制，该机制显著增强了概念表示空间的鲁棒性，使得目标操纵在计算上不可行，同时保持了高分类准确率。 AI

影响强调了一种针对可解释AI模型的新攻击向量，需要开发先进的鲁棒性技术。

排序理由学术论文，详细介绍了针对特定类型ML模型的新漏洞和防御机制。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Aditya Sridhar · 2026-05-26 04:00

当可解释性成为一种负担：针对CBM概念层的对抗性攻击

arXiv:2605.25304v1 Announce Type: new Abstract: Concept Bottleneck Models (CBMs) have emerged as a cornerstone approach for interpretable machine learning, providing human-understandable intermediate representations through explicit concept activations. However, this interpretabi…

报道来源 [1]

当可解释性成为一种负担：针对CBM概念层的对抗性攻击

相关实体

相关话题