研究人员推出 HuM-Eval,一个旨在更好地评估生成视频中人类运动质量的新框架。现有指标常常忽略细微的人类细节,导致评估结果与人类偏好不符。HuM-Eval 采用粗粒度到细粒度的方法,首先使用视觉语言模型进行总体评估,然后分析 2D 姿势的解剖学准确性和 3D 运动的稳定性。该方法与人类判断的相关性达到了 58.2%,超过了现有基准。 AI
影响 引入了一种更准确的评估生成视频中人类运动的方法,可能指导未来文本到视频模型的改进。
排序理由 介绍视频生成模型新评估框架的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →