English(EN) InsertAnywhere: Geometrically Grounded and Optics-Aware Video Object Insertion

新框架InsertAnywhere通过4D场景理解和光学真实感增强视频物体插入

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了InsertAnywhere，一个用于视频物体插入（VOI）的新框架，解决了4D场景理解和光学交互方面的局限性。该系统使用一个4D感知掩码生成模块来实现几何感知的物体放置，并采用光学感知表示对齐策略来实现阴影和反射等真实光照效果。为了便于训练，该团队还创建并发布了ROSE++数据集，这是一个专门用于学习光学效果的四元组数据集。实验表明，InsertAnywhere在创建逼真和照片级真实感的视频插入方面优于现有工具。 AI

影响这项研究通过提高插入物体的真实感和几何精度，推动了视频编辑能力的发展，可能影响内容创作工具。

排序理由这是一篇详细介绍用于视频物体插入的新框架和数据集的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Hoiyeong Jin, Hyojin Jang, Junha Hyung, Jeongho Kim, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo · 2026-06-30 04:00

InsertAnywhere: Geometrically Grounded and Optics-Aware Video Object Insertion

arXiv:2512.17504v2 Announce Type: replace-cross Abstract: Recent advances in diffusion models have enabled impressive video editing capabilities, yet production-grade Video Object Insertion (VOI) remains challenging due to inadequate 4D scene understanding and a lack of proper op…

报道来源 [1]

InsertAnywhere: Geometrically Grounded and Optics-Aware Video Object Insertion

相关话题