English(EN) Fine-tuning experiments on CoT controllability

微调可提升 AI 推理可控性，METR 研究显示

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-01 07:00

研究人员发现，在少量指令遵循示例数据集上对推理模型进行微调，可以显著提高其控制思维链（CoT）推理轨迹的能力。在四种不同模型上观察到的这种改进，使模型在分布外任务上的 CoT 可控性从平均 2.9% 提高到 8.8%。研究表明，即使是最小的微调也能引发潜在的可控性能力，这表明当前模型中较差的 CoT 可控性可能并非一个稳健的限制。然而，研究人员指出，前沿 AI 实验室可能不会优先考虑此类微调，并且其对多轮或代理设置的影响尚不清楚。 AI

排序理由该集群报道了一篇学术论文，详细介绍了用于改进 CoT 可控性的推理模型微调实验。

在 METR (Model Evaluation & Threat Research) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

METR (Model Evaluation & Threat Research) TIER_1 English(EN) · 2026-04-01 07:00

Fine-tuning experiments on CoT controllability

Kei Nishimura-Gasparian is an <a href="https://constellation.org/programs/astra">Astra</a> fellow and was the primary contributor to this work. Neev Parikh provided mentorship and feedback. Summary: We find that a small amount of fine-tuning on…

报道来源 [1]

Fine-tuning experiments on CoT controllability

相关话题