研究人员开发了ScenA,一种从自然语言描述和语音参考生成多说话人音频场景的新颖方法。与依赖结构化监督的先前系统不同,ScenA利用了一个在多样化、真实音频数据上预训练的文本到音频流匹配基础模型。这种方法允许包含逼真的环境声音、房间声学和重叠对话。一个关键的挑战是“参考捷径”,即模型可能仅通过依赖声学相似性来绕过文本提示;ScenA通过采用高噪声偏差的训练分布来缓解此问题。在CoVoMix2-Dialogue基准上的评估表明,ScenA在说话人绑定方面优于现有系统,并生成更丰富、更自然的对话音频。 AI
影响 这项研究通过实现更逼真和可控的多说话人场景创建,推动了生成式音频模型的发展,可能对虚拟助手和内容创作等应用产生影响。
排序理由 该集群包含一篇详细介绍新型AI模型和方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →