研究人员开发了Optimus,一个旨在防止对话式AI模型在微调过程中产生有毒行为的新型防御框架。该方法整合了一个无需训练的毒性分类系统,该系统利用了大型语言模型(LLM)现有的安全对齐。Optimus采用合成数据和直接偏好优化(DPO)的双重策略方法,引导模型产生更安全的输出,即使毒性分类器不完美或存在偏见。 AI
影响 提供了一种在模型定制过程中增强AI安全性的新颖方法,降低了注入有毒行为的风险。
排序理由 发布了一篇详细介绍新AI安全框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →