研究人员开发了一种新颖的方法,通过识别和利用最具挑战性的提示来对语言模型进行安全微调。该技术涉及根据有害模型响应的频率对提示进行评分,然后使用模型自身未越狱的输出来训练这些困难的提示。对Llama-3模型的初步测试显示,攻击成功率显著降低,但同时也增加了模型拒绝良性提示的倾向。进一步的调整,包括与对抗性设计的良性提示交错以及专注于最难的合格提示,有助于缓解拒绝问题,同时保持强大的安全性能。 AI
影响 引入了一种改进LLM安全性的新技术,可以降低越狱攻击的有效性。
排序理由 学术论文,详细介绍了用于语言模型安全微调的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →