PulseAugur
实时 04:40:14
English(EN) InsertAnywhere: Geometrically Grounded and Optics-Aware Video Object Insertion

新框架InsertAnywhere通过4D场景理解和光学真实感增强视频物体插入

研究人员开发了InsertAnywhere,一个用于视频物体插入(VOI)的新框架,解决了4D场景理解和光学交互方面的局限性。该系统使用一个4D感知掩码生成模块来实现几何感知的物体放置,并采用光学感知表示对齐策略来实现阴影和反射等真实光照效果。为了便于训练,该团队还创建并发布了ROSE++数据集,这是一个专门用于学习光学效果的四元组数据集。实验表明,InsertAnywhere在创建逼真和照片级真实感的视频插入方面优于现有工具。 AI

影响 这项研究通过提高插入物体的真实感和几何精度,推动了视频编辑能力的发展,可能影响内容创作工具。

排序理由 这是一篇详细介绍用于视频物体插入的新框架和数据集的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新框架InsertAnywhere通过4D场景理解和光学真实感增强视频物体插入

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Hoiyeong Jin, Hyojin Jang, Junha Hyung, Jeongho Kim, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo ·

    InsertAnywhere: Geometrically Grounded and Optics-Aware Video Object Insertion

    arXiv:2512.17504v2 Announce Type: replace-cross Abstract: Recent advances in diffusion models have enabled impressive video editing capabilities, yet production-grade Video Object Insertion (VOI) remains challenging due to inadequate 4D scene understanding and a lack of proper op…