English(EN) AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes

新的AVTrack数据集挑战复杂场景下的视听跟踪

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员推出AVTrack，这是一个旨在改进复杂、以人为中心的场景中视听说话人跟踪的新数据集。现有数据集通常使用简化的场景，导致评估存在偏差，无法反映相机运动和遮挡等现实世界挑战。AVTrack旨在为动态环境中鲁棒的时空建模和跨模态推理能力的开发提供更严格的基准。 AI

影响为视听跟踪建立了更具挑战性的基准，可能推动人工智能应用中以人为中心的场景理解。

排序理由该集群包含一篇介绍视听跟踪新数据集和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yaoting Wang, Yun Zhou, Zipei Zhang, Henghui Ding · 2026-06-03 04:00

AVTrack：以人为本的复杂场景中的视听跟踪

arXiv:2606.02724v1 Announce Type: cross Abstract: Audio-visual speaker tracking aims to localize and track active speakers by leveraging auditory and visual cues, enabling fine-grained, human-centric scene understanding. This capability is essential for real-world applications su…