研究人员开发了 MixTeX,一个新颖的 LaTeX 光学字符识别 (OCR) 系统,该系统显著减少了对大型真实世界数据集的需求。通过使用语法正确的维基百科文本与 LaTeX 公式配对进行合成预训练,MixTeX 绕过了对昂贵且有限的真实 LaTeX 来源的依赖。在此合成阶段之后,系统仅需要少量真实样本即可进行微调,其性能优于在大量真实数据集上训练的现有方法,同时需要更少的计算资源和人力。开发的模型和代码是公开可用的,支持低资源语言,并为将科学文档图像转换为可编辑的 LaTeX 提供了更有效的方法。 AI
影响 降低了科学文档转换的数据要求,可能支持更广泛的语言支持和更快的科研传播。
排序理由 该集群描述了一篇新的研究论文,详细介绍了一种新颖的 LaTeX OCR 方法,包括其方法论、评估以及代码和模型的公开可用性。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →