研究人员推出了PureDocBench,一个用于文档解析的新基准,它解决了现有OmniDocBench数据集存在的问题,该数据集存在标注错误和潜在的污染。PureDocBench是程序化生成且可追溯源的,在干净、数字降级和真实世界文档场景中提供了更可靠的评估。对40个模型的初步评估显示,文档解析远未解决,模型之间存在显著的性能差距,并且公式识别存在共同的瓶颈。 AI
影响 PureDocBench为文档解析模型提供了更可靠的评估,突出了当前的局限性并指导未来的研究。
排序理由 该集群描述了一个用于评估文档解析模型的新基准,以及其初步应用的发现。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →