English(EN) MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

新的 MedVIGIL 基准测试医疗 AI 在视觉证据受损情况下的可信赖性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

研究人员推出 MedVIGIL，这是一个旨在测试医疗视觉语言模型 (VLM) 可信赖性的新评估套件。该套件侧重于这些模型在识别视觉证据受损或误导性方面的能力，这是临床应用的关键因素。MedVIGIL 包含 300 个案例，由委员会认证的放射科医生精心策划和标注，以评估模型在各种形式的视觉证据受损情况下的性能。基准测试显示，人类表现与当前模型之间存在显著差距，经过审计的最强模型 Claude Opus 4.7 的得分远低于独立放射科医生基线。 AI

影响为评估医疗 AI 的可信赖性建立了一个新基准，突显了当前模型在识别受损视觉证据方面的局限性。

排序理由该集群描述了一篇介绍用于评估 AI 模型的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hanqi Jiang, Junhao Chen, Mingyu Kang, Hyeokjae Kwon, Yi Pan, Lifeng Chen, Weihang You, Haozhen Gong, Ruiyu Yan, Jinglei Lv, Lin Zhao, Hui Ren, Quanzheng Li, Tianming Liu, Xiang Li · 2026-05-25 04:00

MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

arXiv:2605.07919v2 Announce Type: replace Abstract: Medical vision--language models (VLMs) are usually evaluated on intact image--question pairs, but trustworthy clinical use requires a stronger property: a model must recognise when the evidential basis for an answer has failed. …

报道来源 [1]

MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

相关实体

相关话题