PulseAugur
实时 07:12:30
实体 MedVIGIL

MedVIGIL

PulseAugur coverage of MedVIGIL — every cluster mentioning MedVIGIL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
时间线
  1. 2026-05-08 research_milestone A new benchmark, MedVIGIL, was released to evaluate the trustworthiness of medical vision-language models. 来源
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_49028 ·

    新的 MedVIGIL 基准测试医疗 AI 在视觉证据受损情况下的可信赖性

    研究人员推出 MedVIGIL,这是一个旨在测试医疗视觉语言模型 (VLM) 可信赖性的新评估套件。该套件侧重于这些模型在识别视觉证据受损或误导性方面的能力,这是临床应用的关键因素。MedVIGIL 包含 300 个案例,由委员会认证的放射科医生精心策划和标注,以评估模型在各种形式的视觉证据受损情况下的性能。基准测试显示,人类表现与当前模型之间存在显著差距,经过审计的最强模型 Claude Opus 4.7 的得分远低于独立放射科医生基线。

  2. TOOL · CL_25760 ·

    New MedVIGIL benchmark tests medical AI's trustworthiness

    Researchers have introduced MedVIGIL, a new benchmark designed to evaluate the trustworthiness of medical vision-language models (VLMs). The benchmark focuses on a model's ability to recognize when visual evidence is in…