一项发表在arXiv上的新研究质疑了视觉-语言模型在胸部放射学中对图像数据的依赖性。研究人员开发了一种因果审计方法来测试这些模型是否真正利用了图像信息,还是依赖于基于文本的先验知识。研究结果表明,一些模型,包括一个拥有1190亿参数的大型模型,其表现与仅使用文本的基线模型相似,这表明它们可能忽略了图像数据。该研究提出,在将这些模型用于临床之前,应使用接地审计(grounding audits)而非仅凭准确性指标来评估和批准它们。 AI
影响 强调了在医疗保健等关键领域对AI模型进行严格审计的必要性,表明当前的准确性指标可能具有误导性。
排序理由 发表在arXiv上的研究论文,详细介绍了一种新的AI模型审计方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →