English(EN) Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

Incantation 使用自然语言进行多实体视频控制

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 16:12

研究人员推出 Incantation，这是一种新颖的交互式视频世界模型，它使用自然语言作为其主要的动作接口。这种方法可以对视频模拟中的多个实体进行细粒度控制，并实现跨实体泛化，克服了先前控制协议的局限性。与现有基线相比，该模型在处理词汇外提示和跨实体转移方面表现出显著的改进，同时还实现了实时性能。 AI

影响能够更直观、更灵活地控制复杂的模拟环境，可能推动人工智能驱动的内容创建和交互式模拟。

排序理由该集群包含一篇详细介绍新模型及其功能的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Ruili Feng · 2026-05-18 16:12

Incantation：将自然语言作为多实体视频世界模型的操作接口

Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene…

报道来源 [1]

Incantation：将自然语言作为多实体视频世界模型的操作接口

相关实体

相关话题