English(EN) Delayed Bidirectional Alignment via Disentangled Audio Semantics for Audio-Visual Segmentation

新的 DDAVS 框架提高了视听分割的准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 DDAVS，一个新颖的视听分割框架，解决了多源纠缠和视听不对齐的挑战。该系统使用可学习的查询和结构化语义空间来提取和锚定音频语义，增强判别力。此外，DDAVS 通过双交叉注意力引入延迟模态交互，以提高多模态对齐的鲁棒性。在 AVS-Objects 和 VPO 基准上的实验表明，DDAVS 在各种分割场景中取得了最先进的性能。 AI

排序理由该集群包含一篇详细介绍特定计算机视觉任务新技术框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jingqi Tian, Yiheng Du, Haoji Zhang, Yuji Wang, Isaac Ning Lee, Xulong Bai, Tianrui Zhu, Jingxuan Niu, Yansong Tang · 2026-06-30 04:00

Delayed Bidirectional Alignment via Disentangled Audio Semantics for Audio-Visual Segmentation

arXiv:2512.20117v2 Announce Type: replace Abstract: Audio-Visual Segmentation (AVS) aims to localize sound-producing objects at the pixel level by integrating auditory and visual cues. However, existing methods often struggle with multi-source entanglement and audio-visual misali…

报道来源 [1]

Delayed Bidirectional Alignment via Disentangled Audio Semantics for Audio-Visual Segmentation

相关话题