研究人员开发了一种名为“Constitutional On-Policy Safe Distillation”(COPSD)的新方法,以提高AI模型的安全性和有用性。现有的On-Policy自蒸馏技术可能会因为过度收缩模型响应以趋向保守输出而导致性能崩溃,尤其是在推理任务中。COPSD通过首先校准教师模型,然后进行基于高级宪法的条件蒸馏来解决这个问题,从而在不显著牺牲通用推理能力的情况下,实现更好的安全-有用性权衡。 AI
影响 引入了一种提高AI安全性和有用性的新颖技术,有望带来更可靠、偏见更小的AI系统。
排序理由 该集群包含一篇详细介绍AI安全新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →