研究人员开发了一种新颖的方法,可以在无需任何重新训练或访问模型内部计算的情况下,减少大型语言模型的有毒输出。这种被称为“测试时去毒化”的方法利用了零阶优化来近似输入嵌入上的梯度下降,引导模型生成危害性较低的内容。该技术旨在通过最大限度地减少有毒内容同时保持生成质量来提高安全性和用户信任度,并且已在各种模型和提示上展示了强大的性能。 AI
影响 该方法可以通过在无需昂贵的重新训练的情况下减少毒性来显著提高大型语言模型的安全性,从而使更安全的模型更容易获得。
排序理由 该集群包含一篇详细介绍大型语言模型安全新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- Baturay Sağlam
- CatalyzeX Code Finder for Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →