English(EN) Simulating Validity: Modal Decoupling in MLLM Generated Feedback on Science Drawings

MLLM对学生绘画的反馈显示出重大的基础性失败

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-01 04:00

一项新近发表在arXiv上的研究揭示了多模态大型语言模型（MLLMs）在生成对学生科学绘画的反馈时存在重大的基础性失败。研究人员发现，GPT-5.1生成的反馈实例中有41.3%包含错误，例如对象不匹配或虚假缺失，这表明一种称为模态解耦的现象，即模型的说法与视觉证据相矛盾。虽然“先清单后描述”的工作流程减少了一些错误，但仍有相当一部分反馈存在缺陷，这表明当前的提示策略不足以生成有效且具有诊断价值的反馈。 AI

影响突出了当前MLLM在教育反馈方面的关键局限性，需要新的基础机制才能可靠应用。

排序理由学术论文，详细说明了MLLM反馈生成中的局限性。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Arne Bewersdorff, Nejla Yuruk, Xiaoming Zhai · 2026-05-01 04:00

Simulating Validity: Modal Decoupling in MLLM Generated Feedback on Science Drawings

arXiv:2604.26957v1 Announce Type: cross Abstract: In science education, students frequently construct hand-drawn visual models of scientific phenomena. These drawings rely on a visual structure where information is encoded through visual objects, their attributes, and relationshi…

报道来源 [1]

Simulating Validity: Modal Decoupling in MLLM Generated Feedback on Science Drawings

相关实体

相关话题