PulseAugur
实时 18:21:38
English(EN) Self-Mined Hardness for Safety Fine-Tuning

新方法利用模型自身的输出来进行安全微调

研究人员开发了一种新颖的方法,通过识别和利用最具挑战性的提示来对语言模型进行安全微调。该技术涉及根据有害模型响应的频率对提示进行评分,然后使用模型自身未越狱的输出来训练这些困难的提示。对Llama-3模型的初步测试显示,攻击成功率显著降低,但同时也增加了模型拒绝良性提示的倾向。进一步的调整,包括与对抗性设计的良性提示交错以及专注于最难的合格提示,有助于缓解拒绝问题,同时保持强大的安全性能。 AI

影响 引入了一种改进LLM安全性的新技术,可以降低越狱攻击的有效性。

排序理由 学术论文,详细介绍了用于语言模型安全微调的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新方法利用模型自身的输出来进行安全微调

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Prakhar Gupta, Garv Shah, Donghua Zhang ·

    Self-Mined Hardness for Safety Fine-Tuning

    arXiv:2605.03226v1 Announce Type: new Abstract: Safety fine-tuning of language models typically requires a curated adversarial dataset. We take a different approach: score each candidate prompt's difficulty by how often the target model's own rollouts are judged harmful, then fin…