中文(ZH) 【ICML 2026】基于响应自举的LVLM安全微调框架 BYORn

新的BYORn框架保护LVLMs免受后门攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 02:22

研究人员开发了一个名为BYORn（Bootstrap Your Own Responses）的新型防御框架，用于在监督微调（SFT）过程中保护大型视觉语言模型（LVLMs）免受后门攻击。该方法利用预训练模型固有的语义理解能力来检测并用动态生成的、语义一致的响应替换恶意篡改的响应。BYORn能有效中和各种后门攻击，对模型的通用性能影响极小，在某些情况下甚至通过正则化效应提升了模型性能。 AI

影响这项研究为LVLMs中的数据投毒提供了一种强大的防御手段，有望提高AI系统在敏感应用中的安全性和可靠性。

排序理由该集群描述了一个针对LVLMs后门攻击的新型防御框架，该框架已发表在ICML 2026的研究论文中。[lever_c_demoted from research: ic=1 ai=1.0]

在雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

雷峰网 (Leiphone) TIER_1 中文(ZH) · 2026-06-29 02:22

[ICML 2026] BYORn：安全微调大型视觉语言模型 (LVLMs) 的响应自举框架

<section style="padding: 0 10px; line-height: 1.6; text-align: left; font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, 'PingFang SC', Cambria, Cochin, Georgia, Times, 'Times New Roman', serif; font-size: 15px; letter-spacing: 0.05em; color: #595959;"><p sty…

报道来源 [1]

[ICML 2026] BYORn：安全微调大型视觉语言模型 (LVLMs) 的响应自举框架

相关实体

相关话题