研究人员推出DDX-TRACE,这是一个旨在评估视觉语言模型(VLMs)在医学背景下诊断推理能力的新基准测试。与仅关注最终答案的现有基准测试不同,DDX-TRACE评估整个诊断轨迹,包括模型如何在连续步骤中请求证据、更新鉴别诊断以及管理不确定性。对最先进的VLMs进行的初步评估显示出显著的不足,表明模型可以在不展示健全的临床推理或高效证据收集的情况下获得最终诊断的高分。 AI
影响 该基准测试旨在通过关注推理过程而非仅仅最终答案来改进医学诊断中AI模型的评估。
排序理由 该集群描述了一篇介绍用于评估AI模型的新型基准测试的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →