RefAlign 框架通过特征对齐增强了参考到视频的生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了一种名为 RefAlign 的新颖框架，旨在改进参考到视频（R2V）生成。该方法明确地将扩散 Transformer 的参考分支的特征与视觉基础模型的特征进行对齐。对齐过程旨在增强主体身份的一致性，并提高不同主体之间的语义可区分性，从而减少复制粘贴伪影和多主体混淆等问题。RefAlign 仅在训练期间应用，不会产生推理时间开销，并在 OpenS2V-Eval 基准测试中展示了卓越的性能。 AI

影响这项研究介绍了一种提高参考到视频生成保真度和一致性的方法，可能有利于个性化广告和虚拟试穿等应用。

排序理由该集群包含一篇详细介绍视频生成新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Lei Wang, YuXin Song, Ge Wu, Haocheng Feng, Hang Zhou, Jingdong Wang, Yaxing Wang, Jian Yang · 2026-06-30 04:00

RefAlign: Representation Alignment for Reference-to-Video Generation

arXiv:2603.25743v2 Announce Type: replace Abstract: Reference-to-video (R2V) generation is a controllable video synthesis paradigm that constrains the generation process using both text prompts and reference images, enabling applications such as personalized advertising and virtu…

报道来源 [1]

RefAlign: Representation Alignment for Reference-to-Video Generation

相关话题