实体 HG-Bench

HG-Bench

PulseAugur coverage of HG-Bench — every cluster mentioning HG-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_109546 · Jun 24 · 07:18

新的HG-Bench基准揭示AI在手写家庭作业评估方面存在困难

研究人员推出了HG-Bench，这是一个旨在评估AI模型在多页手写家庭作业中准确查找和定位答案区域能力的新基准。该基准由500个已标注的K-12家庭作业样本组成，并包含一个面向页面的评估协议，该协议测量完整的答案定位和步骤级分解。当前最先进的闭源API和开源VLMs在HG-Bench上的表现不佳，零样本系统在完整答案定位上的得分均未超过55.22%。然而，一个在约10,000个领域内示例上微调的GLM-4.6V 9B模型取得了显著更高…