引入了一个名为Animation2Code的新基准,用于评估视觉语言模型(VLMs)在从视频生成代码中的时间视觉推理能力。该基准包含1,069个网络动画视频及其对应的HTML/CSS/JavaScript实现。即使在实现高视觉保真度的情况下,当前最先进的VLMs在代码重建过程中保持时间一致性方面也表现出显著的挑战。 AI
影响 突出了当前视觉语言模型在需要时间理解的任务中的局限性,可能指导未来在视频到代码生成领域的研究。
排序理由 该集群描述了一篇介绍AI模型新基准和评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →