Stability AI 发布了 Stable Audio 3,这是一个用于生成和编辑音频的新型潜在扩散模型系列。这些模型可以生成 44.1 kHz 的立体声音频,输出长度可变,并支持基于图像修复的编辑以实现更快的推理。此次发布包括较小模型规模的开放权重以及一份详细介绍该架构的技术论文,该架构采用了一种新颖的语义声学自动编码器和扩散 Transformer。 AI
影响 通过开源模型加速 AI 驱动的音频制作和编辑能力。
排序理由 Frontier-lab 模型发布,包含开放权重和技术论文。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →