研究人员推出了 TexOCR,这是一个新的基准和训练语料库,旨在改进光学字符识别 (OCR) 模型,以将科学文档重建为可编译的 LaTeX。当前的 OCR 系统通常无法保留重要的结构元素和特定于 LaTeX 的功能,从而导致编译错误。开发的 TexOCR-Bench 评估转录准确性、结构完整性和可编译性,而 TexOCR-Train 则提供了用于训练的大型数据集。使用一个 2B 参数模型的实验表明,与仅进行监督微调相比,具有可验证奖励的强化学习在结构和编译指标上显著提高了性能。 AI
影响 改进从 PDF 进行 LaTeX 重建,可能有助于科学出版工作流程。
排序理由 介绍特定 NLP 任务新基准和训练语料库的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →