PulseAugur
实时 02:07:03
实体 Pink

Pink

PulseAugur coverage of Pink — every cluster mentioning Pink across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06515 ·

    视觉语言模型(VLMs)过度修正数学OCR,掩盖学生错误;新指标PINK改进评估

    研究人员发现,在评估手写数学OCR系统时,尤其是在使用视觉语言模型(VLMs)的情况下,存在一个重大问题。这些模型经常过度修正学生的错误,而不是准确地转录它们,从而掩盖了学习机会。为了解决这个问题,开发了一种名为PINK的新语义评估指标,该指标使用大型语言模型(LLMs)来评分并惩罚这种过度修正。在FERMAT数据集上的评估表明,与BLEU等传统指标相比,PINK显著改变了模型排名,其中Gemini 2.5 Flash在忠实转录方面表现更好。