English(EN) Perception Test 2025: Challenge Summary and a Unified VQA Extension

感知测试2025挑战统一视频问答、跟踪和动作定位任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

第三届感知测试挑战赛在ICCV 2025上举行，旨在对视频模型进行基准测试并评估多模态感知方面的进展。今年的挑战赛强调任务统一，共设有五个合并赛道，包括统一视频问答、物体跟踪和动作定位。一个新颖的子集将感知任务重新表述为选择题视频问答题，突显了当前模型通过统一接口处理多样化任务的困难。 AI

影响突显了当前多模态模型在统一感知任务方面面临的挑战，可能为未来研究方向提供指导。

排序理由这是对学术挑战和会议论文的总结。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Joseph Heyward, Nikhil Parthasarathy, Tyler Zhu, Aravindh Mahendran, Jo\~ao Carreira, Dima Damen, Andrew Zisserman, Viorica P\u{a}tr\u{a}ucean · 2026-04-30 04:00

感知测试 2025：挑战总结与统一的 VQA 扩展

arXiv:2601.06287v2 Announce Type: replace Abstract: The Third Perception Test challenge was organised as a full-day workshop alongside the IEEE/CVF International Conference on Computer Vision (ICCV) 2025. Its primary goal is to benchmark state-of-the-art video models and measure …