研究人员开发了Seer,一种用于文本条件视频预测的新型模型,旨在帮助机器人进行规划和实现目标。Seer利用预训练的文本到图像扩散模型,通过增强的注意力机制和将全局指令分解为帧特定子指令的模块,将其改编为时间生成。这种方法可以实现高效的微调,生成高保真度和连贯的视频,与现有的最先进方法相比,计算成本和性能都有显著提高。 AI
影响 使机器人能够更好地预测未来轨迹,从而可能改进规划和任务执行。
排序理由 这是一篇描述视频预测新模型的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →