English(EN) A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

研究发现，医学VLM基准存在预训练污染

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员审计了公共医学视觉-语言基准中是否存在预训练污染，发现在SLAKE-En基准上，SigLIP-B-16等模型存在可衡量的图像侧重叠。文本分析显示，Qwen2.5-VL在SLAKE-En上以及其他VLMs在OmniMedVQA上存在规范顺序可交换信号。然而，研究得出结论，某些检测方法（如队列相对尾部富集）对于小型医学VLM队列并不可靠。 AI

影响强调了当前VLM评估方法中存在的潜在缺陷，需要更严格的审计以实现可靠的医学AI开发。

排序理由该集群包含一篇详细介绍AI模型评估研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Bruce Changlong Xu, Lan Wu, Alexander Ryu · 2026-06-10 04:00

公开医学视觉-语言基准中预训练污染的可控审计

arXiv:2606.10066v1 Announce Type: cross Abstract: Medical vision-language models (VLMs) are evaluated on public benchmarks whose images and question-answer pairs have been freely downloadable for years, yet reported accuracy assumes these examples were absent from pretraining. We…

报道来源 [1]

公开医学视觉-语言基准中预训练污染的可控审计

相关实体

相关话题