English(EN) Can MLLMs "Read" What is Missing?

使用MMTR-Bench测试多模态大语言模型从视觉上下文中重建掩码文本的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了MMTR-Bench，这是一个旨在测试多模态大语言模型（MLLMs）仅从视觉上下文中重建缺失文本能力的新基准。该基准避免了明确的提示，迫使模型从文档和网页中推断并填充掩码文本。初步实验表明，当前的多模态大语言模型在这一重建任务上存在显著困难，尤其是在句子和段落层面。 AI

影响引入了一种新的评估方法，有望推动多模态大语言模型在从视觉输入理解和重建文本方面的能力提升。

排序理由该集群包含一篇介绍用于评估多模态大语言模型的新颖基准的学术论文。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jindi Guo, Chaozheng Huang, Xi Fang · 2026-04-28 04:00

Can MLLMs "Read" What is Missing?

arXiv:2604.21277v2 Announce Type: replace Abstract: We introduce MMTR-Bench, a benchmark designed to evaluate the intrinsic ability of Multimodal Large Language Models (MLLMs) to reconstruct masked text directly from visual context. Unlike conventional question-answering tasks, M…