Français(FR) Multimodal QUD: Inquisitive Questions from Scientific Figures

研究人员开发多模态QUD以加深对科学图表的理解

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一个名为MQUD的新数据集和方法论，使视觉语言模型（VLMs）能够就科学图表提出更具洞察力的问题。该方法将“讨论中的问题”（QUD）的语言理论扩展到多模态环境，同时考虑图表和伴随的文本。通过在MQUD上对VLMs进行微调，模型可以生成需要更深层次多模态推理的内容特定问题，超越简单的信息提取。 AI

影响增强了VLMs理解复杂科学可视化的能力，可能改进研究理解工具。

排序理由该集群描述了在arXiv预印本中提出的新数据集和方法论。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 Français(FR) · Yating Wu, William Rudman, Venkata S Govindarajan, Alexandros G. Dimakis, Junyi Jessy Li · 2026-04-28 04:00

多模态QUD：科学人物的探究性问题

arXiv:2604.23733v1 Announce Type: new Abstract: Asking inquisitive questions while reading, and looking for their answers, is an important part in human discourse comprehension, curiosity, and creative ideation, and prior work has investigated this in text-only scenarios. However…

报道来源 [1]

多模态QUD：科学人物的探究性问题

相关实体

相关话题