研究人员开发了 HakushoBench,这是一个用于评估视觉语言模型(VLM)理解日本图表能力的新基准测试。该数据集来自 33 份日本政府白皮书,包含 2,000 多张图片以及手动标注的问答对。初步实验显示,开源模型和专有模型之间存在显著的性能差距,表明在处理复杂的非英语文档分析方面,VLM 的能力还有很大的提升空间。 AI
影响 为非英语视觉数据上的 VLM 性能建立了新的评估标准,有望推动多语言文档理解能力的提升。
排序理由 该集群描述了一个用于评估 AI 模型的新学术基准数据集。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →