研究人员推出了 EpiCurveBench,这是一个旨在评估视觉语言模型(VLMs)在从流行病曲线图表中提取数据任务方面的能力的新基准。该基准包含 1,000 张真实世界的流行病曲线图像和一个名为 EpiCurveSimilarity (ECS) 的新评估指标。ECS 通过动态规划对预测序列和真实序列进行对齐,旨在比现有的键值提取指标更好地捕捉时间序列数据的时序结构。初步评估显示,即使是最强的 VLM,ECS 也仅达到 52.3%,凸显了该领域的挑战以及当前评估方法的局限性。 AI
影响 该基准和指标有望实现对时间序列图表提取任务更准确的 VLM 性能评估,并在公共卫生数据分析中具有潜在应用。
排序理由 该集群描述了一篇介绍用于 VLM 在特定任务上性能的基准和评估指标的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →