PulseAugur
实时 13:08:06
实体 HakushoBench

HakushoBench

PulseAugur coverage of HakushoBench — every cluster mentioning HakushoBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_64770 ·

    新的基准测试可检验视觉语言模型对日本图表的理解能力

    研究人员开发了 HakushoBench,这是一个用于评估视觉语言模型(VLM)理解日本图表能力的新基准测试。该数据集来自 33 份日本政府白皮书,包含 2,000 多张图片以及手动标注的问答对。初步实验显示,开源模型和专有模型之间存在显著的性能差距,表明在处理复杂的非英语文档分析方面,VLM 的能力还有很大的提升空间。