研究人员推出了 ShredBench,这是一个旨在评估多模态大语言模型(MLLMs)从碎片化文档中重建文档的语义推理能力的新基准。该基准利用自动化流程生成碎片化文档,确保评估不受训练数据污染。对当前 MLLMs 的初步测试显示,随着文档碎片化的增加,性能显著下降,表明它们在弥合视觉不连续性和执行细粒度跨模态推理方面存在差距。 AI
影响 突出了当前 MLLMs 在从碎片化来源重建文档方面的局限性,并指出了未来研究的方向。
排序理由 引入用于评估 MLLMs 在特定任务上表现的新基准。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →