PulseAugur
实时 13:03:15
English(EN) Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

空间音频模型无法编码相位,依赖于干扰

一篇新发表在arXiv上的论文探讨了当前空间音频基础模型的局限性,发现它们通常依赖于光谱-时域干扰而非精确的相位编码来进行定位任务。研究人员开发了一个使用双耳掩蔽声级差(BMLD)的心理声学基准来测试九种不同的音频模型。虽然专门的双耳空间模型显示出与分析基线相当的BMLD,但通用双耳模型则表现出对干扰纹理的依赖,这表明其性能指标中可能存在混淆因素。 AI

排序理由 学术论文发表在arXiv上,详细介绍了研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuxuan Chen, Haoyuan Yu, Peize He ·

    Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

    arXiv:2606.14820v1 Announce Type: cross Abstract: Recent spatial self supervised audio models achieve high performance on localization tasks, raising questions about their encoding of microsecond interaural phase fine structures. We propose a psychoacoustic benchmark based on the…