研究人员推出了 MathV-DP,这是一个旨在通过捕捉每个图像-问题对的多样化解题轨迹来改进多模态数学推理的新数据集。该数据集旨在提供比传统的一对一图像-文本配对更丰富的监督。他们还开发了 Qwen-VL-DP,一个基于 Qwen-VL 的模型,该模型使用监督学习和一种新颖的组相对策略优化(GRPO)方法。该方法结合了正确性辨别和多样性感知奖励,使模型能够从不同的推理视角中学习,并区分正确但不同的解法。在 MathVista 和 Math-V 基准测试上的实验表明,Qwen-VL-DP 在准确性和生成多样性方面均显著优于现有的多模态 LLM。 AI
影响 通过整合多样化的推理路径,增强了多模态 LLM 在数学任务上的能力,有望提高准确性和生成多样性。
排序理由 该集群在一篇 arXiv 论文中描述了一个新的数据集和一个用于多模态数学推理的微调模型。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →