PulseAugur
实时 07:58:37
实体 HG-Bench

HG-Bench

PulseAugur coverage of HG-Bench — every cluster mentioning HG-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109546 ·

    新的HG-Bench基准揭示AI在手写家庭作业评估方面存在困难

    研究人员推出了HG-Bench,这是一个旨在评估AI模型在多页手写家庭作业中准确查找和定位答案区域能力的新基准。该基准由500个已标注的K-12家庭作业样本组成,并包含一个面向页面的评估协议,该协议测量完整的答案定位和步骤级分解。当前最先进的闭源API和开源VLMs在HG-Bench上的表现不佳,零样本系统在完整答案定位上的得分均未超过55.22%。然而,一个在约10,000个领域内示例上微调的GLM-4.6V 9B模型取得了显著更高…