English(EN) Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

空间音频模型无法编码相位，依赖于干扰

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新发表在arXiv上的论文探讨了当前空间音频基础模型的局限性，发现它们通常依赖于光谱-时域干扰而非精确的相位编码来进行定位任务。研究人员开发了一个使用双耳掩蔽声级差（BMLD）的心理声学基准来测试九种不同的音频模型。虽然专门的双耳空间模型显示出与分析基线相当的BMLD，但通用双耳模型则表现出对干扰纹理的依赖，这表明其性能指标中可能存在混淆因素。 AI

排序理由学术论文发表在arXiv上，详细介绍了研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuxuan Chen, Haoyuan Yu, Peize He · 2026-06-16 04:00

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

arXiv:2606.14820v1 Announce Type: cross Abstract: Recent spatial self supervised audio models achieve high performance on localization tasks, raising questions about their encoding of microsecond interaural phase fine structures. We propose a psychoacoustic benchmark based on the…

报道来源 [1]

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

相关实体

相关话题