VoiceCraft AI 模型能够使用最少的音频进行声音克隆和语音编辑

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 01:00

VoiceCraft 是由 UT Austin 和 Meta FAIR 的研究人员开发的一种新颖的神经编解码器语言模型，它能够使用最少的参考音频进行高保真声音克隆和语音编辑。该模型已获得超过 8,500 个 GitHub 星标，它采用了一种 Transformer 解码器架构，并结合了因果掩码和延迟堆叠的独特标记重排程序。这种方法允许基于双向上下文的自回归生成，显著优于传统的语音编辑和 TTS 方法。VoiceCraft 还引入了 RealEdit 数据集用于实际语音编辑评估，并通过 Docker 提供简便的设置。 AI

影响该模型可以显著降低音频编辑和声音克隆的成本和时间，对播客、有声读物制作和配音行业产生影响。

排序理由该项目描述了一个新的人工智能模型及其技术细节，包括其架构和数据集，由研究人员发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — Claude Code tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — Claude Code tag TIER_1 Deutsch(DE) · Dibi8 · 2026-06-29 01:00

VoiceCraft：8.5K+ 星标

<h2> Introduction </h2> <p>Editing spoken audio used to mean re-recording the entire take in a studio. If a podcaster stumbled over one word or an audiobook narrator mispronounced a name, the fix involved booking another session, setting up the microphone, and matching the origin…

报道来源 [1]

VoiceCraft：8.5K+ 星标

相关实体

相关话题