一项新近发表在arXiv上的研究揭示了多模态大型语言模型(MLLMs)在生成对学生科学绘画的反馈时存在重大的基础性失败。研究人员发现,GPT-5.1生成的反馈实例中有41.3%包含错误,例如对象不匹配或虚假缺失,这表明一种称为模态解耦的现象,即模型的说法与视觉证据相矛盾。虽然“先清单后描述”的工作流程减少了一些错误,但仍有相当一部分反馈存在缺陷,这表明当前的提示策略不足以生成有效且具有诊断价值的反馈。 AI
影响 突出了当前MLLM在教育反馈方面的关键局限性,需要新的基础机制才能可靠应用。
排序理由 学术论文,详细说明了MLLM反馈生成中的局限性。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →