English(EN) Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation

研究发现：医疗AI模型答案更准确但推理能力下降

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

一篇新发表在arXiv上的研究揭示了一个令人担忧的医疗问答模型趋势：虽然经过蒸馏的模型在最终答案上准确性有所提高，但它们的推理过程可能会显著退化。研究人员发现，一个Qwen3-8B模型，通过从DeepSeek-V3系列教师模型进行链式思考蒸馏训练后，在MedQA-USMLE上的答案指标有所改善，但在由LLM裁判审计时，其逐步推理的错误率却更高。这种答案质量和追踪事实性出现分歧的现象，在各种医疗基准测试和模型配置中都有观察到，表明标准的答案级指标不足以评估这些蒸馏模型的真实可靠性。 AI

影响强调了在AI模型（尤其是在医学等关键领域）中，除了简单的准确性之外，还需要更鲁棒的评估方法。

排序理由研究论文，详细说明了关于AI模型性能的具体发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu · 2026-05-28 04:00

准确率更高，推理能力更差：医疗链式思考蒸馏的步进式审计

arXiv:2605.28301v1 Announce Type: new Abstract: Chain-of-thought (CoT) distillation trains a smaller model to imitate a teacher's reasoning trace, but it is typically evaluated by final-answer metrics including accuracy. We ask whether gains in answer quality are accompanied by i…

报道来源 [1]

准确率更高，推理能力更差：医疗链式思考蒸馏的步进式审计

相关实体

相关话题