PulseAugur
实时 12:53:47
English(EN) From General-Purpose Audio Tagging to Spatially Grounded Sound Event Localization and Detection

新的AT2SELD框架通过空间声音检测增强音频标记

研究人员开发了一个名为AT2SELD的新框架,该框架将通用音频标记模型扩展到执行空间定位的声音事件定位与检测。该框架集成了预训练的音频标记骨干网络和紧凑型一阶Ambisonics空间处理,能够在各种约束下进行更准确的声音事件分析。AT2SELD框架通过多阶段神经架构搜索开发,确定了光谱描述符和残差空间编码作为有效的语义到空间转换的关键组成部分。跨多个数据集的诊断评估显示AT2SELD取得了有希望的结果,特别是在集成校准和面向部署的策略优化后。 AI

影响 这项研究可能为机器人、监控和沉浸式音频体验等应用带来更复杂的音频分析工具。

排序理由 该集群包含一篇详细介绍新音频处理框架的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的AT2SELD框架通过空间声音检测增强音频标记

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Stefano Giacomelli, Stefano Damiano, Claudia Rinaldi, Fabio Graziosi, Toon van Waterschoot ·

    From General-Purpose Audio Tagging to Spatially Grounded Sound Event Localization and Detection

    arXiv:2606.27751v1 Announce Type: cross Abstract: This report investigates the extension of pretrained General-Purpose Audio Tagging (GP-AT) models toward spatially grounded Sound Event Localization and Detection (SELD). The proposed AT2SELD framework couples a pretrained AT back…

  2. arXiv cs.AI TIER_1 English(EN) · Toon van Waterschoot ·

    从通用音频标签到空间定位的声事件定位与检测

    This report investigates the extension of pretrained General-Purpose Audio Tagging (GP-AT) models toward spatially grounded Sound Event Localization and Detection (SELD). The proposed AT2SELD framework couples a pretrained AT backbone with compact First-Order Ambisonics (FOA) spa…