Google DeepMind 的研究人员发现,与强化学习 (RL) 等其他训练阶段相比,监督微调 (SFT) 是其 Gemini 模型安全特性以及行为的主要驱动因素。将仅经过预训练的 Gemini 3.1 Pro 和 Gemini 3 Flash 版本与经过 SFT 的版本进行比较的实验,显示出其安全性能惊人地相似。这一发现表明,SFT 是未来 Gemini 开发中改进模型安全性和行为的一个高杠杆干预点。 AI
影响 强调 SFT 作为确保 AI 安全的关键阶段,可能指导未来的开发和评估策略。
排序理由 来自主要 AI 实验室的研究更新,详细介绍了模型训练和安全特性的发现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →