研究人员开发了GAversary,这是一种新颖的混合遗传算法,旨在针对自然语言处理模型生成对抗性攻击。这种黑盒方法仅需要模型的logit输出来指导其漏洞搜索。GAversary利用GloVe嵌入来提出语义上相似的词语替换,显著降低了目标模型在基准数据集上的准确性。在一个实例中,它将准确性从76.8%降低到5.8%,优于现有的BAE和A2T攻击,尽管它扰动了更多的词语并且运行时间稍长。 AI
影响 这项研究强调了一种测试NLP模型鲁棒性的新方法,有可能带来更安全可靠的AI系统。
排序理由 该集群包含一篇研究论文,详细介绍了生成针对NLP模型的对抗性攻击的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →