Sony AI发布了Woosh,一个用于生成声音效果的新基础模型。该模型包含音频编码/解码、文本-音频对齐以及文本到音频和视频到音频生成组件。还提供了蒸馏版本,以实现更快的推理和更低的资源使用。评估表明,Woosh在性能上可与StableAudio-Open和TangoFlux等现有开源模型竞争。 AI
影响 为生成式音频研究和应用程序开发提供了一个新的开源工具。
排序理由 发布了一个用于声音效果生成的开源基础模型,并附带论文和代码。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →