研究人员推出了 TurtleAI,这是一个旨在评估视觉语言模型(VLMs)在海龟图形(Turtle Graphics)教育性视觉编程任务上的新基准。该基准包含 823 个任务,结果显示包括 GPT-5 和 GPT-4o 在内的 20 多个领先的 VLM 在此方面存在显著困难,成功率通常低于 30%。提出的数据生成技术和对 Qwen2-VL-72B 的微调在真实任务上显示出约 20% 的显著改进,突显了模型在空间推理和精确视觉复制方面的挑战。 AI
影响 强调了当前 VLM 在教育性视觉编程方面的局限性,并指出了未来模型开发的领域。
排序理由 该集群包含一篇介绍用于评估 AI 模型的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →