研究人员审计了公共医学视觉-语言基准中是否存在预训练污染,发现在SLAKE-En基准上,SigLIP-B-16等模型存在可衡量的图像侧重叠。文本分析显示,Qwen2.5-VL在SLAKE-En上以及其他VLMs在OmniMedVQA上存在规范顺序可交换信号。然而,研究得出结论,某些检测方法(如队列相对尾部富集)对于小型医学VLM队列并不可靠。 AI
影响 强调了当前VLM评估方法中存在的潜在缺陷,需要更严格的审计以实现可靠的医学AI开发。
排序理由 该集群包含一篇详细介绍AI模型评估研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →