Boson AI 发布了 Higgs Audio v3 TTS,这是一款专为对话语音聊天设计的文本转语音模型。该模型支持超过 100 种语言,提供零样本语音克隆以及对情感、风格和韵律的精细控制。它使用带有交错文本和音频标记的自回归解码器,将音频编码到码本中进行处理。虽然该模型已发布供研究使用,但商业用途需要单独的许可,并严格禁止非法应用。 AI
影响 为研究和潜在的商业应用提供先进的对话式 TTS 功能。
排序理由 来自非前沿实验室的模型发布,具有研究许可。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Trending Models 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →