PulseAugur
实时 01:36:08
English(EN) ZONOS2: real-time TTS with 8B params, 900M active, and high-fidelity voice cloning

Zyphra 发布 ZONOS2,一款 80 亿参数的实时 TTS 模型

Zyphra 发布了 ZONOS2,一个开源的、实时的文本到语音模型,拥有 80 亿总参数和 9 亿激活参数以实现高效推理。这款稀疏专家混合(MoE)模型在高质量、零样本语音克隆方面表现出色,旨在克服语音质量和速度之间的典型权衡。ZONOS2 处理原始 UTF-8 字节而非音素,增强了对多种语言和语码转换的支持,并接受了超过 600 万小时音频数据的训练。 AI

影响 这款稀疏 MoE TTS 模型提供了高保真语音克隆和实时性能,有望为富有表现力的语音合成设定新的基准。

排序理由 该条目描述了一个新的开源 TTS 模型的发布,包含具体的技术细节和基准比较。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Zyphra 发布 ZONOS2,一款 80 亿参数的实时 TTS 模型

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/KokaOP ·

    ZONOS2:具有80亿参数、9亿活跃参数和高保真语音克隆的实时TTS

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u4lk5c/zonos2_realtime_tts_with_8b_params_900m_active/"> <img alt="ZONOS2: real-time TTS with 8B params, 900M active, and high-fidelity voice cloning" src="https://external-preview.redd.it/i4WJfW6p4Uj9gIVSsX0…