一篇新发表在arXiv上的论文探讨了当前空间音频基础模型的局限性,发现它们通常依赖于光谱-时域干扰而非精确的相位编码来进行定位任务。研究人员开发了一个使用双耳掩蔽声级差(BMLD)的心理声学基准来测试九种不同的音频模型。虽然专门的双耳空间模型显示出与分析基线相当的BMLD,但通用双耳模型则表现出对干扰纹理的依赖,这表明其性能指标中可能存在混淆因素。 AI
排序理由 学术论文发表在arXiv上,详细介绍了研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Binaural SSL
- BMLD
- GCC PHAT
- Monaural SSL
- Neural Audio Codecs
- Spatial Audio Foundation Models
- Spectro-Temporal Interference
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →