PulseAugur
实时 16:21:43
English(EN) MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

新的 MedVIGIL 基准测试医疗 AI 的可信度

研究人员推出了 MedVIGIL,这是一个旨在评估医疗视觉语言模型 (VLM) 可信度的新基准。该基准侧重于模型识别视觉证据不足或误导性信息的能力,这是临床应用中的一个关键方面。MedVIGIL 包含 300 个案例,附有专家撰写的问题、答案和风险评估,并用于测试 16 个 VLM 和 2 个纯文本模型。经过审计的最强模型 Claude Opus 4.7 在 MedVIGIL 综合评分上得分为 69.2,远低于独立放射科医生 83.3 的得分。 AI

影响 该基准将通过关注医疗 AI 处理不可靠或误导性视觉证据的能力,帮助开发人员创建更可靠的医疗 AI 系统。

排序理由 该集群描述了一篇介绍用于评估 AI 模型的新型基准的学术论文的发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 MedVIGIL 基准测试医疗 AI 的可信度

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Xiang Li ·

    MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

    Medical vision--language models (VLMs) are usually evaluated on intact image--question pairs, but trustworthy clinical use requires a stronger property: a model must recognise when the evidential basis for an answer has failed. We study this through silent failures under perturbe…