新框架 SaFeR-Steer 提升了多轮对话中 LLM 的安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员推出了一种新颖的框架 SaFeR-Steer，旨在提高多轮大型语言模型（LLMs）的安全性和有用性。这种渐进式对齐方法利用合成引导和导师参与的强化学习技术，在自适应攻击下训练模型，解决了单轮训练数据与真实多轮部署之间的不匹配问题。该框架还包含一个轨迹一致的总结性奖励（TCSR），以惩罚对话中的任何低质量回合。实验表明，当应用于 Qwen2.5-VL 模型时，在各种基准测试中，安全性和有用性均得到显著改善。 AI

影响这项研究介绍了一种提高 LLM 在多轮对话中安全性的方法，有望带来更强大、更值得信赖的 AI 助手。

排序理由该集群包含一篇详细介绍用于提高 LLM 安全性的新框架和数据集的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Haolong Hu, Hanyu Li, Tiancheng He, Huahui Yi, An Zhang, Qiankun Li, Kun Wang, Yang Liu, Zhigang Zeng · 2026-05-28 04:00

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

arXiv:2604.16358v2 Announce Type: replace-cross Abstract: MLLMs are increasingly deployed in multi-turn settings, where attackers can escalate unsafe intent through the evolving visual-text history and exploit long-context safety decay. Yet safety alignment is still dominated by …

报道来源 [1]

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

相关实体

相关话题