English(EN) MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

新的 MedVIGIL 基准测试医疗 AI 的可信度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 15:55

研究人员推出了 MedVIGIL，这是一个旨在评估医疗视觉语言模型 (VLM) 可信度的新基准。该基准侧重于模型识别视觉证据不足或误导性信息的能力，这是临床应用中的一个关键方面。MedVIGIL 包含 300 个案例，附有专家撰写的问题、答案和风险评估，并用于测试 16 个 VLM 和 2 个纯文本模型。经过审计的最强模型 Claude Opus 4.7 在 MedVIGIL 综合评分上得分为 69.2，远低于独立放射科医生 83.3 的得分。 AI

影响该基准将通过关注医疗 AI 处理不可靠或误导性视觉证据的能力，帮助开发人员创建更可靠的医疗 AI 系统。

排序理由该集群描述了一篇介绍用于评估 AI 模型的新型基准的学术论文的发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xiang Li · 2026-05-08 15:55

MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

Medical vision--language models (VLMs) are usually evaluated on intact image--question pairs, but trustworthy clinical use requires a stronger property: a model must recognise when the evidential basis for an answer has failed. We study this through silent failures under perturbe…

报道来源 [1]

MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

相关实体

相关话题