English(EN) Cross-Temporal Sinhala OCR: Page-Level Adaptation and Diachronic Analysis

新的僧伽罗语 OCR 数据集和模型达到最先进性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一个新的数据集 sinhala-ocr-lk-acts-1010，以改进僧伽罗语的光学字符识别 (OCR)。僧伽罗语是斯里兰卡约 1600 万人使用的语言。该数据集包含 1010 页图像及其转录文本，来源是跨越二十年的斯里兰卡立法法案。实验对包括 DeepSeek-OCR V1、DeepSeek-OCR V2 和 LightOnOCR-2-1B 在内的三个深度学习模型进行了微调，结果表明 LightOnOCR-2-1B 取得了最佳性能，字符错误率为 1.05%，显著优于其他开源和商业 OCR 解决方案。 AI

影响改进了低资源语言的 OCR 能力，可能有助于历史文献的数字化和可访问性。

排序理由学术论文介绍了新的数据集和 OCR 模型评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Avisha Dilhara, Nevidu Jayatilleke · 2026-06-30 04:00

跨时序僧伽罗语OCR：页面级自适应与历时分析

arXiv:2606.29378v1 Announce Type: new Abstract: Sinhala is a morphologically rich abugida spoken by roughly 16 million people in Sri Lanka, and to date, there are no publicly available real-world datasets for page-level Sinhala OCR. All previous studies for assessing Sinhala OCR …

报道来源 [1]

跨时序僧伽罗语OCR：页面级自适应与历时分析

相关实体

相关话题