PulseAugur
实时 20:46:45
English(EN) Stability AI Releases Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing

Stability AI 发布 Stable Audio 3,开放权重

Stability AI 发布了 Stable Audio 3,这是一个用于生成和编辑音频的新型潜在扩散模型系列。这些模型可以生成 44.1 kHz 的立体声音频,输出长度可变,并支持基于图像修复的编辑以实现更快的推理。此次发布包括较小模型规模的开放权重以及一份详细介绍该架构的技术论文,该架构采用了一种新颖的语义声学自动编码器和扩散 Transformer。 AI

影响 通过开源模型加速 AI 驱动的音频制作和编辑能力。

排序理由 Frontier-lab 模型发布,包含开放权重和技术论文。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Stability AI 发布 Stable Audio 3,开放权重

报道来源 [1]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Stability AI Releases Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing

    <p>Stability AI has released Stable Audio 3, a family of latent diffusion models for instrumental music and sound effects generation. The release includes open weights for the small and medium variants. Small runs on a MacBook Pro M4 CPU. Medium fits on consumer GPUs with 8 GB of…