English(EN) Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images

新的STAR-64K数据集和训练框架提升MLLM推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员开发了一种新的方法来训练多模态大语言模型（MLLM），以提高它们处理图像中呈现的抽象关系知识的能力。该方法包括一个自动数据引擎，该引擎合成具有多模态关系知识的图像，并生成具有思维链推理的指令数据。提出的两阶段能力增强框架在包含64,000个样本的数据集上进行了测试，结果表明较小的模型在结构化和抽象推理任务上可以超越GPT-4o。 AI

影响引入了一个新颖的训练框架和数据集，使较小的模型在特定推理任务上能够超越GPT-4o。

排序理由这是一篇介绍用于多模态推理的新数据集和训练框架的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yichi Zhang, Zhuo Chen, Lingbing Guo, Wen Zhang, Huajun Chen · 2026-04-30 04:00

结构化与抽象推理多模态关系知识图像

arXiv:2510.21828v2 Announce Type: replace-cross Abstract: Understanding and reasoning with abstractive information from the visual modality presents significant challenges for current multi-modal large language models (MLLMs). Among the various forms of abstractive information, M…

报道来源 [1]

结构化与抽象推理多模态关系知识图像

相关实体

相关话题