PulseAugur
实时 11:52:41
English(EN) Fine-tuning experiments on CoT controllability

微调可提升 AI 推理可控性,METR 研究显示

研究人员发现,在少量指令遵循示例数据集上对推理模型进行微调,可以显著提高其控制思维链(CoT)推理轨迹的能力。在四种不同模型上观察到的这种改进,使模型在分布外任务上的 CoT 可控性从平均 2.9% 提高到 8.8%。研究表明,即使是最小的微调也能引发潜在的可控性能力,这表明当前模型中较差的 CoT 可控性可能并非一个稳健的限制。然而,研究人员指出,前沿 AI 实验室可能不会优先考虑此类微调,并且其对多轮或代理设置的影响尚不清楚。 AI

排序理由 该集群报道了一篇学术论文,详细介绍了用于改进 CoT 可控性的推理模型微调实验。

在 METR (Model Evaluation & Threat Research) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

微调可提升 AI 推理可控性,METR 研究显示

报道来源 [1]

  1. METR (Model Evaluation & Threat Research) TIER_1 English(EN) ·

    Fine-tuning experiments on CoT controllability

    <p><em>Kei Nishimura-Gasparian is an <a href="https://constellation.org/programs/astra">Astra</a> fellow and was the primary contributor to this work. Neev Parikh provided mentorship and feedback.</em></p> <p><strong>Summary:</strong> We find that a small amount of fine-tuning on…