研究人员推出了HG-Bench,这是一个旨在评估AI模型在多页手写家庭作业中准确查找和定位答案区域能力的新基准。该基准由500个已标注的K-12家庭作业样本组成,并包含一个面向页面的评估协议,该协议测量完整的答案定位和步骤级分解。当前最先进的闭源API和开源VLMs在HG-Bench上的表现不佳,零样本系统在完整答案定位上的得分均未超过55.22%。然而,一个在约10,000个领域内示例上微调的GLM-4.6V 9B模型取得了显著更高的分数,这凸显了在手写推理基础方面存在的能力差距。 AI
影响 为评估AI在教育环境中理解和定位手写推理的能力建立了一个新基准。
排序理由 该集群描述了一个新的AI模型基准和评估协议,已在arXiv上发布。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →