English(EN) MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

新框架通过关键帧、运动控制和推理增强视频生成

作者 PulseAugur 编辑部 · [11 个来源] · 2026-05-19 15:29

研究人员推出了几个用于高级视频生成的新框架，重点关注增强的控制和真实感。SmartDirector 利用多个关键帧来指导电影式视频创作，改进叙事结构和时间节奏。MotiMotion 通过整合视觉推理来优化轨迹和预测次级效应，解决了运动控制视频的局限性，旨在获得更自然、更可信的结果。PostCam 提供了一种通过精确的相机编辑进行新视角视频生成的简化方法，而 CamC2V 则整合了 3D 约束和多图像条件以进行上下文感知生成。CoMoGen 从掩码序列生成逼真的交互式动力学，VChain 使用多模态模型通过视觉思维链过程在关键时刻指导视频生成。 AI

影响这些在可控和推理驱动的视频生成方面的进展可能带来更复杂的 AI 内容创作工具和模拟。

排序理由多篇研究论文介绍了视频生成的新框架。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 11 个来源。我们如何撰写摘要 →

报道来源 [11]

arXiv cs.AI TIER_1 English(EN) · Zhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li · 2026-05-28 04:00

SmartDirector：具有叙事节奏控制的关键帧条件电影视频生成

arXiv:2605.27891v1 Announce Type: cross Abstract: The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-27 00:00

SmartDirector：关键帧条件化的电影视频生成与叙事节奏控制

SmartDirector enhances video generation by using multiple keyframes to improve narrative structure and temporal pacing through a two-stage process of low-resolution generation and high-resolution refinement.
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-21 00:00

MotiMotion：具有视觉推理能力的运动控制视频生成

MotiMotion introduces a reasoning-then-generation framework for motion-controlled video generation that improves plausibility through vision-language reasoning and confidence-aware control mechanisms.
arXiv cs.CV TIER_1 English(EN) · Yipeng Chen, Zhichao Ye, Zhenzhou Fang, Xinyu Chen, Xiaoyu Zhang, Jialing Liu, Nan Wang, Guofeng Zhang, Haomin Liu · 2026-06-01 04:00

PostCam：相机可控的、查询共享交叉注意力的全新视角视频生成

arXiv:2511.17185v2 Announce Type: replace Abstract: We propose PostCam, a streamlined framework for novel-view video generation that achieves superior detail preservation and precise camera trajectory editing in dynamic scenes. Current methods often struggle with a trade-off betw…
arXiv cs.CV TIER_1 English(EN) · Luis Denninger, Sina Mokhtarzadeh Azar, Juergen Gall · 2026-05-29 04:00

CamC2V：上下文感知可控视频生成

arXiv:2504.06022v3 Announce Type: replace Abstract: Recently, image-to-video (I2V) diffusion models have demonstrated impressive scene understanding and generative quality, incorporating image conditions to guide generation. However, these models primarily animate static images w…
arXiv cs.CV TIER_1 English(EN) · Adil Meric, Lin Geng Foo, Mert Kiray, Benjamin Busam, Rishabh Dabral, Christian Theobalt · 2026-05-25 04:00

CoMoGen：具有掩码引导视频生成的 COntrollable MOtion Dynamics 和交互

arXiv:2605.22996v1 Announce Type: new Abstract: We present CoMoGen, a controllable video generation framework that generates realistic interactive dynamics from a single binary mask sequence conditioned on an input image. CoMoGen introduces a lightweight MaskAdapter that encodes …
arXiv cs.CV TIER_1 English(EN) · Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen · 2026-05-22 04:00

VisPhyWorld：通过代码驱动的视频重建来探测物理推理

arXiv:2602.13294v3 Announce Type: replace Abstract: Evaluating whether Multimodal Large Language Models (MLLMs) genuinely reason about physical dynamics remains challenging. Most existing benchmarks rely on recognition-style protocols such as Visual Question Answering (VQA) and V…
arXiv cs.CV TIER_1 English(EN) · Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu · 2026-05-22 04:00

VChain：用于视频生成中推理的视觉思维链

arXiv:2510.05094v2 Announce Type: replace Abstract: Recent video generation models can produce smooth and visually appealing clips, but they often struggle to synthesize complex dynamics with a coherent chain of consequences. Accurately modeling visual outcomes and state transiti…
arXiv cs.CV TIER_1 English(EN) · Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu · 2026-05-22 04:00

MotiMotion：具有视觉推理能力的运动控制视频生成

arXiv:2605.22818v1 Announce Type: new Abstract: Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially…
arXiv cs.CV TIER_1 English(EN) · Zhixin Shu · 2026-05-21 17:59

MotiMotion：具有视觉推理能力的运动控制视频生成

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To ad…
arXiv cs.CV TIER_1 English(EN) · Jianbing Shen · 2026-05-19 15:29

CogOmniControl：通过创意意图认知实现驱动式可控视频生成

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing …

报道来源 [11]

相关实体

相关话题