English(EN) Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

新的Wiki-R1框架提升了基于知识的视觉问答的多模态推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

研究人员推出Wiki-R1，一个旨在增强基于知识的视觉问答（KB-VQA）领域中大型语言模型多模态推理能力的新框架。该方法采用可控数据生成和课程强化学习策略，以使训练分布与模型不断变化的能力相匹配。在Encyclopedic VQA和InfoSeek基准上的实验表明，Wiki-R1取得了新的最先进成果，显著提高了两个数据集的准确性。 AI

影响这项研究可能带来更强大的多模态人工智能系统，以应对复杂的问答任务。

排序理由该集群包含一篇详细介绍新框架和基准结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shan Ning, Longtian Qiu, Xuming He · 2026-07-03 04:00

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

arXiv:2603.05256v2 Announce Type: replace Abstract: Knowledge-Based Visual Question Answering (KB-VQA) requires models to answer questions about an image by integrating external knowledge, posing significant challenges due to noisy retrieval and the structured, encyclopedic natur…

报道来源 [1]

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

相关实体

相关话题