研究人员开发了一种新颖的方法来重建历史亚美尼亚报纸的阅读顺序,由于其复杂的布局和有限的语言资源,这带来了挑战。他们的方法结合了语义区域检测和生成式大型语言模型,与基线方法相比,错误减少了 76%。该技术旨在加速资源匮乏语言的数据标注,并包括一个专门用于历史亚美尼亚印刷品的 Tesseract OCR 模型。 AI
影响 增强了历史文献的可访问性,并加速了资源匮乏语言的数据标注。
排序理由 该项目是一篇研究论文,详细介绍了一种使用大型语言模型进行文档分析的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →