PulseAugur
实时 11:24:24
English(EN) Semantic-Guided Reading Order Reconstruction in Historical Armenian Newspapers with LLMs

大型语言模型改进历史亚美尼亚报纸的阅读顺序重建

研究人员开发了一种新颖的方法来重建历史亚美尼亚报纸的阅读顺序,由于其复杂的布局和有限的语言资源,这带来了挑战。他们的方法结合了语义区域检测和生成式大型语言模型,与基线方法相比,错误减少了 76%。该技术旨在加速资源匮乏语言的数据标注,并包括一个专门用于历史亚美尼亚印刷品的 Tesseract OCR 模型。 AI

影响 增强了历史文献的可访问性,并加速了资源匮乏语言的数据标注。

排序理由 该项目是一篇研究论文,详细介绍了一种使用大型语言模型进行文档分析的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

大型语言模型改进历史亚美尼亚报纸的阅读顺序重建

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Chahan Vidal-Gor\`ene (CJM, LIPN), Nadi Tomeh (LIPN), Victoria Khurshudyan (Inalco, SeDyL) ·

    Semantic-Guided Reading Order Reconstruction in Historical Armenian Newspapers with LLMs

    arXiv:2607.00596v1 Announce Type: new Abstract: This paper addresses reading order reconstruction in historical Armenian newspapers, which combine complex layouts with limited language resources. We introduce a new annotated dataset of 66 pages and compare geometric heuristics, Y…

  2. arXiv cs.CV TIER_1 English(EN) · Victoria Khurshudyan ·

    利用大型语言模型对历史亚美尼亚报纸进行语义引导的阅读顺序重建

    This paper addresses reading order reconstruction in historical Armenian newspapers, which combine complex layouts with limited language resources. We introduce a new annotated dataset of 66 pages and compare geometric heuristics, YOLO-based layout parsing, an end-to-end document…