两篇新研究论文探索了使用生成模型进行语音增强的高级技术。第一篇论文介绍了视听对比对齐(AVCA),通过强制更强的视听相关性来改进基于扩散的语音增强,在干扰抑制和信号重建方面显示出优势,尤其是在低信噪比下。第二篇论文提出了一种新颖的无跳跃骨干网络用于流匹配语音增强,通过与Descript Audio Codec的潜在表示对齐(LRA)进行指导,旨在保留清晰语音表示并实现高效的几步推理。 AI
影响 这些论文推进了用于语音增强的生成模型技术,有望改善嘈杂环境下的音频质量,并实现更高效的实时应用。
排序理由 两篇在arXiv上发表的学术论文,详细介绍了语音增强的新方法。
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- CORE Recommender
- DagsHub
- Descript Audio Codec
- Gotit.pub
- Hugging Face
- Influence Flower
- Latent Representation Alignment
- Mostafa Sadeghi
- ScienceCast
- U-Net
- VoiceBank+DEMAND
- WSJ0-CHiME3
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →