PulseAugur
实时 19:13:07
English(EN) EpiCurveBench: Evaluating VLMs on Epidemic Curve Digitization

新基准评估视觉语言模型从流行病曲线中提取数据的能力

研究人员推出了 EpiCurveBench,这是一个旨在评估视觉语言模型(VLMs)在从流行病曲线图表中提取数据任务方面的能力的新基准。该基准包含 1,000 张真实世界的流行病曲线图像和一个名为 EpiCurveSimilarity (ECS) 的新评估指标。ECS 通过动态规划对预测序列和真实序列进行对齐,旨在比现有的键值提取指标更好地捕捉时间序列数据的时序结构。初步评估显示,即使是最强的 VLM,ECS 也仅达到 52.3%,凸显了该领域的挑战以及当前评估方法的局限性。 AI

影响 该基准和指标有望实现对时间序列图表提取任务更准确的 VLM 性能评估,并在公共卫生数据分析中具有潜在应用。

排序理由 该集群描述了一篇介绍用于 VLM 在特定任务上性能的基准和评估指标的新学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新基准评估视觉语言模型从流行病曲线中提取数据的能力

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Thomas Berkane, Maimuna S. Majumder ·

    EpiCurveBench:评估VLMs在流行病曲线数字化方面的表现

    arXiv:2605.27195v1 Announce Type: new Abstract: Chart-to-data extraction with vision-language models (VLMs) is increasingly evaluated on benchmarks that show diminishing headroom (frontier VLMs exceed 89% on ChartQA) and with metrics that treat extracted points as unordered key-v…

  2. arXiv cs.CL TIER_1 English(EN) · Maimuna S. Majumder ·

    EpiCurveBench:在流行病曲线数字化方面评估VLMs

    Chart-to-data extraction with vision-language models (VLMs) is increasingly evaluated on benchmarks that show diminishing headroom (frontier VLMs exceed 89% on ChartQA) and with metrics that treat extracted points as unordered key-value pairs, ignoring the temporal structure of t…