研究人员推出了Goku,一个专为指令视频编辑设计的新数据集和基准。Goku包含200万个视频编辑对,超越了简单的外观编辑,涵盖了复杂的多任务和结构化操作。配套的Goku-Edit模型利用多模态大语言模型进行指令理解,在新提出的Goku-Bench基准上比现有开源模型提高了8%。 AI
影响 提升了指令视频编辑的能力,可能催生更复杂、更具创意的视频处理工具。
排序理由 该集群描述了一篇介绍视频编辑数据集、基准和模型的学术论文。
在 Hugging Face Daily Papers 阅读 →
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Goku
- Goku-Bench
- Goku-Edit
- Gotit.pub
- Hugging Face
- multimodal large language model
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →