研究人员开发了一个名为DIFE的新框架,用于评估对比语言图像预训练(CLIP)模型在跨不同接口重用时的安全漏洞。研究发现,CLIP模型中的后门并不能保证在新任务上的持续有效性,其暴露程度取决于特定的模型组件。为了解决已识别的差距,引入了一种名为BadTextTower的新方法,该方法为文本编码器中的对抗性行为创建了一个可重用的载体。 AI
影响 新的审计框架揭示CLIP模型后门可能无法有效迁移到下游任务,突显了组件特定的风险。
排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了一个用于审计AI模型漏洞的新框架和方法。
- arXiv
- BadTextTower
- Hugging Face
- alphaXiv
- CatalyzeX
- Connected Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Influence Flower
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →