PulseAugur
实时 22:42:10
English(EN) DocAtlas: Multilingual Document Understanding Across 80+ Languages

DocAtlas框架提升低资源语言的多语言文档理解能力

研究人员推出DocAtlas,一个旨在改进多语言文档理解的新颖框架,尤其针对低资源语言。该系统使用DOCX和合成LaTeX生成的双管道,构建了82种语言的高保真OCR数据集和基准。对16个最先进模型的评估突显了低资源脚本中持续存在的性能差距,但DocAtlas证明,直接偏好优化(DPO)结合渲染得出的地面真实数据,可以稳定地进行多语言模型适配,在不降低基础语言性能的情况下提高准确性。 AI

影响 增强了AI处理和理解更广泛语言文档的能力,可能改善全球信息获取和跨语言AI应用。

排序理由 该集群包含一篇学术论文,详细介绍了多语言文档理解的新框架和评估方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan ·

    DocAtlas: Multilingual Document Understanding Across 80+ Languages

    arXiv:2605.12623v2 Announce Type: replace Abstract: Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs …