研究人员开发了SSNAPS,一种利用视听线索将语音与背景噪声分离的新型无监督方法。该方法采用扩散逆采样,通过对干净语音和环境噪声建模不同的扩散先验来重建所有声源。与有监督基线相比,该技术在各种嘈杂条件下的词错误率方面表现更优,甚至可以处理多说话人和屏幕外分离。分离出的噪声成分的高保真度也支持下游声景检测。 AI
排序理由 该集群包含一篇详细介绍新的视听语音分离方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Diffusion Inverse Sampling
- Gotit.pub
- Hugging Face
- Influence Flower
- ScienceCast
- SSNAPS
- Yochai Yemini
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →