研究人员发现,在少量指令遵循示例数据集上对推理模型进行微调,可以显著提高其控制思维链(CoT)推理轨迹的能力。在四种不同模型上观察到的这种改进,使模型在分布外任务上的 CoT 可控性从平均 2.9% 提高到 8.8%。研究表明,即使是最小的微调也能引发潜在的可控性能力,这表明当前模型中较差的 CoT 可控性可能并非一个稳健的限制。然而,研究人员指出,前沿 AI 实验室可能不会优先考虑此类微调,并且其对多轮或代理设置的影响尚不清楚。 AI
排序理由 该集群报道了一篇学术论文,详细介绍了用于改进 CoT 可控性的推理模型微调实验。
在 METR (Model Evaluation & Threat Research) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →