English(EN) EpiCurveBench: Evaluating VLMs on Epidemic Curve Digitization

新基准评估视觉语言模型从流行病曲线中提取数据的能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-26 15:48

研究人员推出了 EpiCurveBench，这是一个旨在评估视觉语言模型（VLMs）在从流行病曲线图表中提取数据任务方面的能力的新基准。该基准包含 1,000 张真实世界的流行病曲线图像和一个名为 EpiCurveSimilarity (ECS) 的新评估指标。ECS 通过动态规划对预测序列和真实序列进行对齐，旨在比现有的键值提取指标更好地捕捉时间序列数据的时序结构。初步评估显示，即使是最强的 VLM，ECS 也仅达到 52.3%，凸显了该领域的挑战以及当前评估方法的局限性。 AI

影响该基准和指标有望实现对时间序列图表提取任务更准确的 VLM 性能评估，并在公共卫生数据分析中具有潜在应用。

排序理由该集群描述了一篇介绍用于 VLM 在特定任务上性能的基准和评估指标的新学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Thomas Berkane, Maimuna S. Majumder · 2026-05-27 04:00

EpiCurveBench：评估VLMs在流行病曲线数字化方面的表现

arXiv:2605.27195v1 Announce Type: new Abstract: Chart-to-data extraction with vision-language models (VLMs) is increasingly evaluated on benchmarks that show diminishing headroom (frontier VLMs exceed 89% on ChartQA) and with metrics that treat extracted points as unordered key-v…
arXiv cs.CL TIER_1 English(EN) · Maimuna S. Majumder · 2026-05-26 15:48

EpiCurveBench：在流行病曲线数字化方面评估VLMs

Chart-to-data extraction with vision-language models (VLMs) is increasingly evaluated on benchmarks that show diminishing headroom (frontier VLMs exceed 89% on ChartQA) and with metrics that treat extracted points as unordered key-value pairs, ignoring the temporal structure of t…

报道来源 [2]

EpiCurveBench：评估VLMs在流行病曲线数字化方面的表现

EpiCurveBench：在流行病曲线数字化方面评估VLMs

相关实体

相关话题