PulseAugur
实时 11:06:58
English(EN) MixTeX: Data-Efficient LaTeX OCR via Synthetic Pretraining and Limited Fine-Tuning

MixTeX 系统使用合成数据实现高效 LaTeX OCR

研究人员开发了 MixTeX,一个新颖的 LaTeX 光学字符识别 (OCR) 系统,该系统显著减少了对大型真实世界数据集的需求。通过使用语法正确的维基百科文本与 LaTeX 公式配对进行合成预训练,MixTeX 绕过了对昂贵且有限的真实 LaTeX 来源的依赖。在此合成阶段之后,系统仅需要少量真实样本即可进行微调,其性能优于在大量真实数据集上训练的现有方法,同时需要更少的计算资源和人力。开发的模型和代码是公开可用的,支持低资源语言,并为将科学文档图像转换为可编辑的 LaTeX 提供了更有效的方法。 AI

影响 降低了科学文档转换的数据要求,可能支持更广泛的语言支持和更快的科研传播。

排序理由 该集群描述了一篇新的研究论文,详细介绍了一种新颖的 LaTeX OCR 方法,包括其方法论、评估以及代码和模型的公开可用性。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Yuhan Xu, Yijun Zhao, Renqing Luo, Gary M. Weiss ·

    MixTeX: Data-Efficient LaTeX OCR via Synthetic Pretraining and Limited Fine-Tuning

    arXiv:2406.17148v3 Announce Type: replace Abstract: LaTeX OCR converts scientific document images into editable LaTeX code. Existing systems rely on large paired datasets, which are costly to collect and limited for low-resource languages. This paper presents MIXTEX, a data-effic…