English(EN) CXR-ContraBench: Benchmarking Negated-Option Attraction in Medical VLMs

医学视觉语言模型难以处理否定回答，新基准揭示问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员开发了CXR-ContraBench，这是一个新的基准，旨在评估医学视觉语言模型（VLMs）在胸部X光片分析中正确解释否定陈述方面的性能。该基准突显了一个重大问题，即模型会被否定选项所吸引，导致临床上存在风险的矛盾。虽然MedGemma和Qwen2.5-VL等模型显示出相当高的失败率，但一种名为QCCV-Neg的新方法已证明能够在不重新训练的情况下，确定性地纠正这些极性混淆的子集。 AI

影响引入了一个基准，用于暴露和解决医学视觉语言模型中关键的推理时间极性故障，有可能提高诊断准确性。

排序理由这是一篇研究论文，介绍了一个新的基准和一种用于评估和改进医学视觉语言模型的方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zhengru Fang, Yanan Ma, Yu Guo, Senkang Hu, Yixian Zhang, Hangcheng Cao, Wenbo Ding, Yuguang Fang · 2026-05-08 04:00

CXR-ContraBench：医学视觉语言模型中否定选项吸引力的基准测试

arXiv:2605.05810v1 Announce Type: new Abstract: When a chest X-ray shows consolidation but the question asks which finding is present, a medical vision-language model may answer "No consolidation." This is more than an incorrect choice: it is a polarity reversal that emits a clin…

报道来源 [1]

CXR-ContraBench：医学视觉语言模型中否定选项吸引力的基准测试

相关实体

相关话题