English(EN) HG-Bench: A Benchmark for Multi-Page Handwritten Answer-Region Grounding in Automated Homework Assessment

新的HG-Bench基准揭示AI在手写家庭作业评估方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 07:18

研究人员推出了HG-Bench，这是一个旨在评估AI模型在多页手写家庭作业中准确查找和定位答案区域能力的新基准。该基准由500个已标注的K-12家庭作业样本组成，并包含一个面向页面的评估协议，该协议测量完整的答案定位和步骤级分解。当前最先进的闭源API和开源VLMs在HG-Bench上的表现不佳，零样本系统在完整答案定位上的得分均未超过55.22%。然而，一个在约10,000个领域内示例上微调的GLM-4.6V 9B模型取得了显著更高的分数，这凸显了在手写推理基础方面存在的能力差距。 AI

影响为评估AI在教育环境中理解和定位手写推理的能力建立了一个新基准。

排序理由该集群描述了一个新的AI模型基准和评估协议，已在arXiv上发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Juanzi Li · 2026-06-24 07:18

HG-Bench: A Benchmark for Multi-Page Handwritten Answer-Region Grounding in Automated Homework Assessment

Automated homework assessment depends not only on recognizing student answers, but also on accurately locating where each answer and each intermediate reasoning step appears in noisy, multi-page handwritten work. This paper addresses the missing evaluation setting of page-aware, …

报道来源 [1]

HG-Bench: A Benchmark for Multi-Page Handwritten Answer-Region Grounding in Automated Homework Assessment

相关实体

相关话题