English(EN) Seer: Language Instructed Video Prediction with Latent Diffusion Models

Seer模型使用潜在扩散模型进行高效、语言指导的视频预测

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了Seer，一种用于文本条件视频预测的新型模型，旨在帮助机器人进行规划和实现目标。Seer利用预训练的文本到图像扩散模型，通过增强的注意力机制和将全局指令分解为帧特定子指令的模块，将其改编为时间生成。这种方法可以实现高效的微调，生成高保真度和连贯的视频，与现有的最先进方法相比，计算成本和性能都有显著提高。 AI

影响使机器人能够更好地预测未来轨迹，从而可能改进规划和任务执行。

排序理由这是一篇描述视频预测新模型的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xianfan Gu, Chuan Wen, Weirui Ye, Jiaming Song, Yang Gao · 2026-04-28 04:00

Seer：使用潜在扩散模型进行语言指导的视频预测

arXiv:2303.14897v4 Announce Type: replace Abstract: Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning…

报道来源 [1]

Seer：使用潜在扩散模型进行语言指导的视频预测

相关实体

相关话题