研究人员开发了MSUE,一个专为2026 SoccerNet VQA挑战赛设计的、多专家系统。该系统利用视觉语言模型合成训练数据,并采用大型语言模型将问题路由到专门的文本、图像或视频专家。通过整合Gemini3-Flash、一个微调的Qwen3-VL和一个外部知识库,MSUE在挑战赛基准测试中达到了0.95的准确率,获得第三名。 AI
影响 展示了一种新颖的多模态理解多专家架构,可能影响未来的VQA系统。
排序理由 该集群包含一篇详细介绍新模型架构及其在特定基准测试上表现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →