PulseAugur
实时 10:09:06

新型AI模型ScenA可根据文本生成逼真的多说话人音频场景

研究人员开发了ScenA,一种从自然语言描述和语音参考生成多说话人音频场景的新颖方法。与依赖结构化监督的先前系统不同,ScenA利用了一个在多样化、真实音频数据上预训练的文本到音频流匹配基础模型。这种方法允许包含逼真的环境声音、房间声学和重叠对话。一个关键的挑战是“参考捷径”,即模型可能仅通过依赖声学相似性来绕过文本提示;ScenA通过采用高噪声偏差的训练分布来缓解此问题。在CoVoMix2-Dialogue基准上的评估表明,ScenA在说话人绑定方面优于现有系统,并生成更丰富、更自然的对话音频。 AI

影响 这项研究通过实现更逼真和可控的多说话人场景创建,推动了生成式音频模型的发展,可能对虚拟助手和内容创作等应用产生影响。

排序理由 该集群包含一篇详细介绍新型AI模型和方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen ·

    Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

    arXiv:2606.19325v1 Announce Type: cross Abstract: Existing multi-speaker dialogue systems bind speakers to utterances through structured supervision: per-turn tags, multi-stream transcriptions, or learnable speaker embeddings. These systems operate within speech-only pipelines th…

  2. arXiv cs.AI TIER_1 English(EN) · Yoav HaCohen ·

    Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

    Existing multi-speaker dialogue systems bind speakers to utterances through structured supervision: per-turn tags, multi-stream transcriptions, or learnable speaker embeddings. These systems operate within speech-only pipelines that produce clean vocal sequences without the ambie…