Zyphra 发布了 ZONOS2,一个开源的、实时的文本到语音模型,拥有 80 亿总参数和 9 亿激活参数以实现高效推理。这款稀疏专家混合(MoE)模型在高质量、零样本语音克隆方面表现出色,旨在克服语音质量和速度之间的典型权衡。ZONOS2 处理原始 UTF-8 字节而非音素,增强了对多种语言和语码转换的支持,并接受了超过 600 万小时音频数据的训练。 AI
影响 这款稀疏 MoE TTS 模型提供了高保真语音克隆和实时性能,有望为富有表现力的语音合成设定新的基准。
排序理由 该条目描述了一个新的开源 TTS 模型的发布,包含具体的技术细节和基准比较。[lever_c_demoted from research: ic=1 ai=1.0]
- Apache 2.0
- Cartesia Sonic 3.5
- ElevenLabs V3
- Fish S2 Pro
- Gemini 3.1 Flash
- Inworld TTS 2
- Qwen 3 TTS 1.7B
- VoxCPM 2
- ZONOS2
- Zyphra
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →