研究人员开发了一个名为MQUD的新数据集和方法论,使视觉语言模型(VLMs)能够就科学图表提出更具洞察力的问题。该方法将“讨论中的问题”(QUD)的语言理论扩展到多模态环境,同时考虑图表和伴随的文本。通过在MQUD上对VLMs进行微调,模型可以生成需要更深层次多模态推理的内容特定问题,超越简单的信息提取。 AI
影响 增强了VLMs理解复杂科学可视化的能力,可能改进研究理解工具。
排序理由 该集群描述了在arXiv预印本中提出的新数据集和方法论。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →