新型AI模型ScenA可根据文本生成逼真的多说话人音频场景

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-17 17:51

研究人员开发了ScenA，一种从自然语言描述和语音参考生成多说话人音频场景的新颖方法。与依赖结构化监督的先前系统不同，ScenA利用了一个在多样化、真实音频数据上预训练的文本到音频流匹配基础模型。这种方法允许包含逼真的环境声音、房间声学和重叠对话。一个关键的挑战是“参考捷径”，即模型可能仅通过依赖声学相似性来绕过文本提示；ScenA通过采用高噪声偏差的训练分布来缓解此问题。在CoVoMix2-Dialogue基准上的评估表明，ScenA在说话人绑定方面优于现有系统，并生成更丰富、更自然的对话音频。 AI

影响这项研究通过实现更逼真和可控的多说话人场景创建，推动了生成式音频模型的发展，可能对虚拟助手和内容创作等应用产生影响。

排序理由该集群包含一篇详细介绍新型AI模型和方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen · 2026-06-18 04:00

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

arXiv:2606.19325v1 Announce Type: cross Abstract: Existing multi-speaker dialogue systems bind speakers to utterances through structured supervision: per-turn tags, multi-stream transcriptions, or learnable speaker embeddings. These systems operate within speech-only pipelines th…
arXiv cs.AI TIER_1 English(EN) · Yoav HaCohen · 2026-06-17 17:51

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

Existing multi-speaker dialogue systems bind speakers to utterances through structured supervision: per-turn tags, multi-stream transcriptions, or learnable speaker embeddings. These systems operate within speech-only pipelines that produce clean vocal sequences without the ambie…

报道来源 [2]

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

相关话题