研究人员开发了TrojanTO,这是一种针对离线强化学习中使用的轨迹优化(TO)模型执行动作级后门攻击的新颖方法。与之前的奖励操纵攻击不同,TrojanTO针对TO模型的序列建模特性,并解决了高维动作空间带来的挑战。该攻击通过交替训练增强触发器-动作连接,并通过轨迹过滤进行精确投毒以实现隐蔽性,在低投毒预算下实现了有效性。 AI
影响 这项研究突显了轨迹优化模型潜在的安全漏洞,需要开发更强大的防御措施来应对复杂的后门攻击。
排序理由 该集群包含一篇详细介绍针对AI模型的新颖攻击方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →