English(EN) StereoFoley: Object-Aware Stereo Audio Generation from Video

Apple研究人员开发StereoFoley，用于从视频生成物体感知的立体声音频

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 00:00

Apple研究人员开发了StereoFoley，一个用于从视频生成语义对齐、时间同步和空间精确的立体声音频的新框架。该系统通过创建物体感知的立体声成像来解决现有模型的局限性，并通过合成数据生成管道克服了缺乏合适数据集的挑战。该管道结合了视频分析、物体跟踪和音频合成，并具有动态平移和距离控制，以生成逼真的声景，为视频到音频生成树立了新的标杆。 AI

影响为从视频内容生成空间精确的立体声音频树立了新的标杆。

排序理由这是一篇详细介绍从视频生成音频新框架的研究论文。

在 Apple Machine Learning Research 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Apple研究人员开发StereoFoley，用于从视频生成物体感知的立体声音频

报道来源 [1]

Apple Machine Learning Research TIER_1 English(EN) · 2026-04-28 00:00

StereoFoley: Object-Aware Stereo Audio Generation from Video

We present StereoFoley, a video-to-audio generation framework that produces semantically aligned, temporally synchronized, and spatially accurate stereo sound at 48 kHz. While recent generative video-to-audio models achieve strong semantic and temporal fidelity, they largely rema…

报道来源 [1]

StereoFoley: Object-Aware Stereo Audio Generation from Video

相关实体

相关话题