PulseAugur
实时 18:33:47

新框架 SaFeR-Steer 提升了多轮对话中 LLM 的安全性

研究人员推出了一种新颖的框架 SaFeR-Steer,旨在提高多轮大型语言模型(LLMs)的安全性和有用性。这种渐进式对齐方法利用合成引导和导师参与的强化学习技术,在自适应攻击下训练模型,解决了单轮训练数据与真实多轮部署之间的不匹配问题。该框架还包含一个轨迹一致的总结性奖励(TCSR),以惩罚对话中的任何低质量回合。实验表明,当应用于 Qwen2.5-VL 模型时,在各种基准测试中,安全性和有用性均得到显著改善。 AI

影响 这项研究介绍了一种提高 LLM 在多轮对话中安全性的方法,有望带来更强大、更值得信赖的 AI 助手。

排序理由 该集群包含一篇详细介绍用于提高 LLM 安全性的新框架和数据集的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新框架 SaFeR-Steer 提升了多轮对话中 LLM 的安全性

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Haolong Hu, Hanyu Li, Tiancheng He, Huahui Yi, An Zhang, Qiankun Li, Kun Wang, Yang Liu, Zhigang Zeng ·

    SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

    arXiv:2604.16358v2 Announce Type: replace-cross Abstract: MLLMs are increasingly deployed in multi-turn settings, where attackers can escalate unsafe intent through the evolving visual-text history and exploit long-context safety decay. Yet safety alignment is still dominated by …