PulseAugur
实时 10:58:44
English(EN) A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

研究发现,医学VLM基准存在预训练污染

研究人员审计了公共医学视觉-语言基准中是否存在预训练污染,发现在SLAKE-En基准上,SigLIP-B-16等模型存在可衡量的图像侧重叠。文本分析显示,Qwen2.5-VL在SLAKE-En上以及其他VLMs在OmniMedVQA上存在规范顺序可交换信号。然而,研究得出结论,某些检测方法(如队列相对尾部富集)对于小型医学VLM队列并不可靠。 AI

影响 强调了当前VLM评估方法中存在的潜在缺陷,需要更严格的审计以实现可靠的医学AI开发。

排序理由 该集群包含一篇详细介绍AI模型评估研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Bruce Changlong Xu, Lan Wu, Alexander Ryu ·

    A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

    arXiv:2606.10066v1 Announce Type: cross Abstract: Medical vision-language models (VLMs) are evaluated on public benchmarks whose images and question-answer pairs have been freely downloadable for years, yet reported accuracy assumes these examples were absent from pretraining. We…