研究人员开发了 HuM-Eval,一个旨在更好地评估生成视频中人类运动质量的新框架。该系统采用粗粒度到细粒度的策略,首先使用视觉语言模型进行广泛评估,然后对姿势和运动稳定性进行详细分析。据报道,HuM-Eval 与人类判断的相关性达到 58.2%,超过了现有方法。该团队还推出了 HuM-Bench,一个包含 1000 个提示的基准数据集,以帮助评估文本到视频模型。 AI
影响 改进了生成视频中人类运动的评估指标,可能指导未来的文本到视频模型开发。
排序理由 该集群描述了一篇详细介绍视频生成模型新评估框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →