English(EN) Animation2Code: Evaluating Temporal Visual Reasoning in Video-to-Code Generation

新的基准Animation2Code揭示了VLM在时间视频到代码生成方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

引入了一个名为Animation2Code的新基准，用于评估视觉语言模型（VLMs）在从视频生成代码中的时间视觉推理能力。该基准包含1,069个网络动画视频及其对应的HTML/CSS/JavaScript实现。即使在实现高视觉保真度的情况下，当前最先进的VLMs在代码重建过程中保持时间一致性方面也表现出显著的挑战。 AI

影响突出了当前视觉语言模型在需要时间理解的任务中的局限性，可能指导未来在视频到代码生成领域的研究。

排序理由该集群描述了一篇介绍AI模型新基准和评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

新的基准Animation2Code揭示了VLM在时间视频到代码生成方面存在困难

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Anya Ji, Abhijith Varma Mudunuri, David M. Chan, Alane Suhr · 2026-06-30 04:00

Animation2Code：评估视频到代码生成中的时间视觉推理

arXiv:2606.28593v1 Announce Type: cross Abstract: While recent vision-language models (VLMs) have achieved significant improvements on static visual-to-code tasks such as generating code for webpages, charts, or SVGs, it remains unclear whether they can recover temporal dynamics …

报道来源 [1]

Animation2Code：评估视频到代码生成中的时间视觉推理

相关实体

相关话题