研究人员在流行的图像到文本评估度量中发现了显著的语义不变性问题。这些度量,包括CLIPScore等,对良性的空间编辑和措辞更改很敏感,导致分数变化和排名翻转。一项研究证实,人工标注者认为扰动后的图像-字幕对同样正确,表明这是度量的行为问题,而非语义变化。研究人员提出了一种不变性校准的评分方法来缓解这些问题。 AI
影响 凸显了当前图像-文本评估的缺陷,可能导致更强大、更可靠的AI模型评估。
排序理由 该集群包含一篇学术论文,详细介绍了图像-文本度量的新评估方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →