研究人员推出了 CineDance-1M,这是一个用于开源文本到音视频生成的超大规模数据集,旨在提高电影叙事能力。该数据集包含平均时长为 92.8 秒、24.2 个镜头的长篇视频,并通过三阶段策展过程获得的结构化音视频标注提供支持。为了评估性能,他们还提出了 CineBench,一个用于复杂音视频叙事的新指标系统,并展示了一个经过调整的 LTX-2.3 模型,该模型显示出强大的对齐和一致性。 AI
影响 为加速长篇电影级音视频生成领域的开源研究提供了基础数据集和评估工具。
排序理由 该集群包含一篇详细介绍人工智能研究新数据集和基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →