PulseAugur
实时 05:58:56
English(EN) MSUE: Multi-Modal Soccer Understanding Expert

新MSUE系统在SoccerNet VQA挑战赛中达到0.95准确率

研究人员开发了MSUE,一个专为2026 SoccerNet VQA挑战赛设计的、多专家系统。该系统利用视觉语言模型合成训练数据,并采用大型语言模型将问题路由到专门的文本、图像或视频专家。通过整合Gemini3-Flash、一个微调的Qwen3-VL和一个外部知识库,MSUE在挑战赛基准测试中达到了0.95的准确率,获得第三名。 AI

影响 展示了一种新颖的多模态理解多专家架构,可能影响未来的VQA系统。

排序理由 该集群包含一篇详细介绍新模型架构及其在特定基准测试上表现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yixi Zhou ·

    MSUE:多模态足球理解专家

    This paper presents our solution to the 2026 SoccerNet VQA Challenge. We first develop a cost-effective data synthesis pipeline driven by a Vision-Language Model (VLM), which systematically restructures raw domain data into diverse VQA samples, including concise answers and long-…