新的EchoFoley任务支持细粒度视频声音生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 04:00

研究人员推出EchoFoley，一项用于生成具有细粒度控制的视频音效的新任务和基准。该系统解决了现有视频到音频模型的一些局限性，例如视觉主导和指令遵循能力弱。EchoFoley-6k，一个包含超过6000个视频-指令-标注三元组的数据集，支持此任务。提出的EchoVidia框架利用慢快思考策略，据报道在可控性和感知质量方面优于当前模型。 AI

影响这项研究可能带来更复杂、更可控的视频内容音频生成，从而改善叙事和用户体验。

排序理由这是一篇详细介绍视频驱动声音生成新任务、数据集和框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Bingxuan Li, Yiming Cui, Yicheng He, Yiwei Wang, Shu Zhang, Longyin Wen, Yulei Niu · 2026-06-24 04:00

EchoFoley：面向事件的视频基础创意声音生成分层控制

arXiv:2512.24731v2 Announce Type: replace Abstract: Sound effects build an essential layer of multimodal storytelling, shaping the emotional atmosphere and the narrative semantics of videos. Despite recent advancement in video-text-to-audio (VT2A), the current formulation faces t…

报道来源 [1]

EchoFoley：面向事件的视频基础创意声音生成分层控制

相关实体

相关话题