English(EN) Test-Time Detoxification without Training or Learning Anything

新方法在测试时去毒化大型语言模型，无需重新训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一种新颖的方法，可以在无需任何重新训练或访问模型内部计算的情况下，减少大型语言模型的有毒输出。这种被称为“测试时去毒化”的方法利用了零阶优化来近似输入嵌入上的梯度下降，引导模型生成危害性较低的内容。该技术旨在通过最大限度地减少有毒内容同时保持生成质量来提高安全性和用户信任度，并且已在各种模型和提示上展示了强大的性能。 AI

影响该方法可以通过在无需昂贵的重新训练的情况下减少毒性来显著提高大型语言模型的安全性，从而使更安全的模型更容易获得。

排序理由该集群包含一篇详细介绍大型语言模型安全新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Baturay Saglam, Dionysis Kalogerias · 2026-06-30 04:00

测试时无需训练或学习即可进行毒性消除

arXiv:2602.02498v2 Announce Type: replace-cross Abstract: Large language models can produce toxic or inappropriate text even for benign inputs, creating risks when deployed at scale. Detoxification is therefore important for safety and user trust, particularly when we want to red…

报道来源 [1]

测试时无需训练或学习即可进行毒性消除

相关实体

相关话题