研究人员开发了一种新的文本到语音 (TTS) 模型,该模型可以模拟 Lombard 效应,即人类在嘈杂环境中说话声音更大、更清晰的现象。该模型利用流匹配和伪标签来控制发声努力和发音,从而实现对这些语音特征的连续控制。这使得能够进行单词级别的强调,并在模拟的嘈杂条件下提高了清晰度和可懂度。 AI
影响 这项研究可能有助于在嘈杂环境中实现更自然、更易于理解的合成语音。
排序理由 这是一篇详细介绍 TTS 新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →