第三届感知测试挑战赛在ICCV 2025上举行,旨在对视频模型进行基准测试并评估多模态感知方面的进展。今年的挑战赛强调任务统一,共设有五个合并赛道,包括统一视频问答、物体跟踪和动作定位。一个新颖的子集将感知任务重新表述为选择题视频问答题,突显了当前模型通过统一接口处理多样化任务的困难。 AI
影响 突显了当前多模态模型在统一感知任务方面面临的挑战,可能为未来研究方向提供指导。
排序理由 这是对学术挑战和会议论文的总结。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →