一篇新发表在arXiv上的研究揭示了一个令人担忧的医疗问答模型趋势:虽然经过蒸馏的模型在最终答案上准确性有所提高,但它们的推理过程可能会显著退化。研究人员发现,一个Qwen3-8B模型,通过从DeepSeek-V3系列教师模型进行链式思考蒸馏训练后,在MedQA-USMLE上的答案指标有所改善,但在由LLM裁判审计时,其逐步推理的错误率却更高。这种答案质量和追踪事实性出现分歧的现象,在各种医疗基准测试和模型配置中都有观察到,表明标准的答案级指标不足以评估这些蒸馏模型的真实可靠性。 AI
影响 强调了在AI模型(尤其是在医学等关键领域)中,除了简单的准确性之外,还需要更鲁棒的评估方法。
排序理由 研究论文,详细说明了关于AI模型性能的具体发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →