研究人员开发了 DDAVS,一个新颖的视听分割框架,解决了多源纠缠和视听不对齐的挑战。该系统使用可学习的查询和结构化语义空间来提取和锚定音频语义,增强判别力。此外,DDAVS 通过双交叉注意力引入延迟模态交互,以提高多模态对齐的鲁棒性。在 AVS-Objects 和 VPO 基准上的实验表明,DDAVS 在各种分割场景中取得了最先进的性能。 AI
排序理由 该集群包含一篇详细介绍特定计算机视觉任务新技术框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →