PulseAugur
实时 08:49:46
English(EN) DDX-TRACE: A Benchmark for Medical Diagnostic Trajectories in VLMs

新的DDX-TRACE基准测试评估视觉语言模型医学诊断轨迹

研究人员推出DDX-TRACE,这是一个旨在评估视觉语言模型(VLMs)在医学背景下诊断推理能力的新基准测试。与仅关注最终答案的现有基准测试不同,DDX-TRACE评估整个诊断轨迹,包括模型如何在连续步骤中请求证据、更新鉴别诊断以及管理不确定性。对最先进的VLMs进行的初步评估显示出显著的不足,表明模型可以在不展示健全的临床推理或高效证据收集的情况下获得最终诊断的高分。 AI

影响 该基准测试旨在通过关注推理过程而非仅仅最终答案来改进医学诊断中AI模型的评估。

排序理由 该集群描述了一篇介绍用于评估AI模型的新型基准测试的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Jiazhen Pan, Weixiang Shen, Jun Li, Julian Canisius, Felix Bitzer, Paula Ro{\ss}m\"uller, Jiancheng Yang, Virginie Kreutzinger, Daniel Rueckert, Benedikt Wiestler ·

    DDX-TRACE:用于VLMs的医学诊断轨迹基准

    arXiv:2605.23629v1 Announce Type: new Abstract: Medical diagnosis is not a single prediction from a fully specified vignette. It is a sequential workup: clinicians decide what evidence to obtain, revise a differential diagnosis, and stop when the diagnosis is sufficiently support…

  2. arXiv cs.CV TIER_1 English(EN) · Benedikt Wiestler ·

    DDX-TRACE:用于VLMs医疗诊断轨迹的基准测试

    Medical diagnosis is not a single prediction from a fully specified vignette. It is a sequential workup: clinicians decide what evidence to obtain, revise a differential diagnosis, and stop when the diagnosis is sufficiently supported. Most medical AI benchmarks instead reveal th…