English(EN) MixTeX: Data-Efficient LaTeX OCR via Synthetic Pretraining and Limited Fine-Tuning

MixTeX 系统使用合成数据实现高效 LaTeX OCR

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了 MixTeX，一个新颖的 LaTeX 光学字符识别 (OCR) 系统，该系统显著减少了对大型真实世界数据集的需求。通过使用语法正确的维基百科文本与 LaTeX 公式配对进行合成预训练，MixTeX 绕过了对昂贵且有限的真实 LaTeX 来源的依赖。在此合成阶段之后，系统仅需要少量真实样本即可进行微调，其性能优于在大量真实数据集上训练的现有方法，同时需要更少的计算资源和人力。开发的模型和代码是公开可用的，支持低资源语言，并为将科学文档图像转换为可编辑的 LaTeX 提供了更有效的方法。 AI

影响降低了科学文档转换的数据要求，可能支持更广泛的语言支持和更快的科研传播。

排序理由该集群描述了一篇新的研究论文，详细介绍了一种新颖的 LaTeX OCR 方法，包括其方法论、评估以及代码和模型的公开可用性。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yuhan Xu, Yijun Zhao, Renqing Luo, Gary M. Weiss · 2026-06-16 04:00

MixTeX: Data-Efficient LaTeX OCR via Synthetic Pretraining and Limited Fine-Tuning

arXiv:2406.17148v3 Announce Type: replace Abstract: LaTeX OCR converts scientific document images into editable LaTeX code. Existing systems rely on large paired datasets, which are costly to collect and limited for low-resource languages. This paper presents MIXTEX, a data-effic…

报道来源 [1]

MixTeX: Data-Efficient LaTeX OCR via Synthetic Pretraining and Limited Fine-Tuning

相关实体

相关话题