English(EN) Self-Mined Hardness for Safety Fine-Tuning

新方法利用模型自身的输出来进行安全微调

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-06 04:00

研究人员开发了一种新颖的方法，通过识别和利用最具挑战性的提示来对语言模型进行安全微调。该技术涉及根据有害模型响应的频率对提示进行评分，然后使用模型自身未越狱的输出来训练这些困难的提示。对Llama-3模型的初步测试显示，攻击成功率显著降低，但同时也增加了模型拒绝良性提示的倾向。进一步的调整，包括与对抗性设计的良性提示交错以及专注于最难的合格提示，有助于缓解拒绝问题，同时保持强大的安全性能。 AI

影响引入了一种改进LLM安全性的新技术，可以降低越狱攻击的有效性。

排序理由学术论文，详细介绍了用于语言模型安全微调的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Prakhar Gupta, Garv Shah, Donghua Zhang · 2026-05-06 04:00

Self-Mined Hardness for Safety Fine-Tuning

arXiv:2605.03226v1 Announce Type: new Abstract: Safety fine-tuning of language models typically requires a curated adversarial dataset. We take a different approach: score each candidate prompt's difficulty by how often the target model's own rollouts are judged harmful, then fin…

报道来源 [1]

Self-Mined Hardness for Safety Fine-Tuning

相关实体

相关话题