研究人员发现,在处理以图像形式呈现的文本时,多模态大型语言模型(MLLM)与处理标准文本标记相比,存在显著的性能差距。这种“模态鸿沟”主要是由模型在处理视觉输入时减少推理所驱动的,导致输出更短、计算量更少。一种新的自蒸馏微调方法,将图像输入与其在文本模式下的模型自身推理痕迹配对,有效地弥合了这一差距,提高了准确性,并将收益转移到新的基准测试中。 AI
影响 识别出MLLM的一个关键局限性,并提出了一种改进其在视觉文本输入上推理能力的方法。
排序理由 学术论文,详细介绍了多模态LLM的一项新发现和方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →