一篇新发表在arXiv上的论文详细介绍了当前基于知识的视觉问答(KB-VQA)基准存在的重大问题。研究强调,由于答案不正确或矛盾、问题表述不清以及视觉场景过于简单等问题,常见的评估指标(如答案准确率)并不可靠。作者提出了一种审计和修复协议来解决这些问题,以及一种增强协议来引入视觉复杂性,并证明这些改进导致了不同的模型性能趋势,并呼吁重新评估KB-VQA基准的设计。 AI
影响 强调了对AI模型进行更鲁棒评估方法的必要性,可能影响衡量和比较VLM能力的方式。
排序理由 学术论文,详细介绍了AI评估基准的问题。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- Knowledge-based visual question answering
- ScienceCast
- Visual Language Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →