PulseAugur
实时 01:26:53
English(EN) Animation2Code: Evaluating Temporal Visual Reasoning in Video-to-Code Generation

新的基准Animation2Code揭示了VLM在时间视频到代码生成方面存在困难

引入了一个名为Animation2Code的新基准,用于评估视觉语言模型(VLMs)在从视频生成代码中的时间视觉推理能力。该基准包含1,069个网络动画视频及其对应的HTML/CSS/JavaScript实现。即使在实现高视觉保真度的情况下,当前最先进的VLMs在代码重建过程中保持时间一致性方面也表现出显著的挑战。 AI

影响 突出了当前视觉语言模型在需要时间理解的任务中的局限性,可能指导未来在视频到代码生成领域的研究。

排序理由 该集群描述了一篇介绍AI模型新基准和评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的基准Animation2Code揭示了VLM在时间视频到代码生成方面存在困难

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Anya Ji, Abhijith Varma Mudunuri, David M. Chan, Alane Suhr ·

    Animation2Code:评估视频到代码生成中的时间视觉推理

    arXiv:2606.28593v1 Announce Type: cross Abstract: While recent vision-language models (VLMs) have achieved significant improvements on static visual-to-code tasks such as generating code for webpages, charts, or SVGs, it remains unclear whether they can recover temporal dynamics …