研究人员推出了一种新颖的框架 SaFeR-Steer,旨在提高多轮大型语言模型(LLMs)的安全性和有用性。这种渐进式对齐方法利用合成引导和导师参与的强化学习技术,在自适应攻击下训练模型,解决了单轮训练数据与真实多轮部署之间的不匹配问题。该框架还包含一个轨迹一致的总结性奖励(TCSR),以惩罚对话中的任何低质量回合。实验表明,当应用于 Qwen2.5-VL 模型时,在各种基准测试中,安全性和有用性均得到显著改善。 AI
影响 这项研究介绍了一种提高 LLM 在多轮对话中安全性的方法,有望带来更强大、更值得信赖的 AI 助手。
排序理由 该集群包含一篇详细介绍用于提高 LLM 安全性的新框架和数据集的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →