PulseAugur
实时 22:59:11
English(EN) Seer: Language Instructed Video Prediction with Latent Diffusion Models

Seer模型使用潜在扩散模型进行高效、语言指导的视频预测

研究人员开发了Seer,一种用于文本条件视频预测的新型模型,旨在帮助机器人进行规划和实现目标。Seer利用预训练的文本到图像扩散模型,通过增强的注意力机制和将全局指令分解为帧特定子指令的模块,将其改编为时间生成。这种方法可以实现高效的微调,生成高保真度和连贯的视频,与现有的最先进方法相比,计算成本和性能都有显著提高。 AI

影响 使机器人能够更好地预测未来轨迹,从而可能改进规划和任务执行。

排序理由 这是一篇描述视频预测新模型的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Seer模型使用潜在扩散模型进行高效、语言指导的视频预测

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Xianfan Gu, Chuan Wen, Weirui Ye, Jiaming Song, Yang Gao ·

    Seer: Language Instructed Video Prediction with Latent Diffusion Models

    arXiv:2303.14897v4 Announce Type: replace Abstract: Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning…