English(EN) Revisiting Active Speaker Detection: An In-the-Wild Benchmark for Generalization and Robustness

新的UniTalk数据集挑战主动说话人检测模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员推出了UniTalk，一个旨在通过关注真实世界条件来改进主动说话人检测（ASD）模型的新数据集。与之前主要使用老电影的基准不同，UniTalk包含多样化的视频类型，涵盖了代表性不足的语言、嘈杂的背景和拥挤的场景。评估表明，当前最先进的模型在UniTalk上的表现不佳，表明ASD在现实场景中仍是一个未解决的问题。然而，在UniTalk上训练的模型在泛化到其他当代数据集方面表现更好。 AI

影响这个新数据集有望显著提高主动说话人检测模型在现实世界应用中的鲁棒性和泛化能力。

排序理由该集群描述了一篇介绍特定AI任务数据集和基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Le Thien Phuc Nguyen, Zhuoran Yu, Khoa Quang Nhat Cao, Yuwei Guo, Tu Ho Manh Pham, Tuan Tai Nguyen, Toan Ngo Duc Vo, Lucas Poon, Tuan Khai Nguyen, Soochahn Lee, Yong Jae Lee · 2026-06-18 04:00

Revisiting Active Speaker Detection: An In-the-Wild Benchmark for Generalization and Robustness

arXiv:2505.21954v2 Announce Type: replace-cross Abstract: We present UniTalk, a novel dataset emphasizing challenging scenarios to enhance model generalization for the task of active speaker detection (ASD). Previously established benchmarks such as AVA predominantly comprise old…

报道来源 [1]

Revisiting Active Speaker Detection: An In-the-Wild Benchmark for Generalization and Robustness

相关实体

相关话题