研究人员开发了一个名为Reflector的新框架,以增强大型语言模型(LLM)对抗复杂越狱攻击的安全性。这种两阶段方法首先使用教师指导生成进行监督微调,然后采用强化学习进行自主反思。Reflector在对抗复杂间接攻击时展示了超过90%的防御成功率,并且还提高了特定任务的性能,在GSM8K基准测试中取得了5.85%的提升。 AI
影响 增强LLM对抗复杂攻击的安全性,提高关键应用的可靠性。
排序理由 该集群包含一篇详细介绍改进LLM安全性的新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →