PulseAugur
实时 04:44:06
English(EN) Cross-Temporal Sinhala OCR: Page-Level Adaptation and Diachronic Analysis

新的僧伽罗语 OCR 数据集和模型达到最先进性能

研究人员开发了一个新的数据集 sinhala-ocr-lk-acts-1010,以改进僧伽罗语的光学字符识别 (OCR)。僧伽罗语是斯里兰卡约 1600 万人使用的语言。该数据集包含 1010 页图像及其转录文本,来源是跨越二十年的斯里兰卡立法法案。实验对包括 DeepSeek-OCR V1DeepSeek-OCR V2LightOnOCR-2-1B 在内的三个深度学习模型进行了微调,结果表明 LightOnOCR-2-1B 取得了最佳性能,字符错误率为 1.05%,显著优于其他开源和商业 OCR 解决方案。 AI

影响 改进了低资源语言的 OCR 能力,可能有助于历史文献的数字化和可访问性。

排序理由 学术论文介绍了新的数据集和 OCR 模型评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的僧伽罗语 OCR 数据集和模型达到最先进性能

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Avisha Dilhara, Nevidu Jayatilleke ·

    跨时序僧伽罗语OCR:页面级自适应与历时分析

    arXiv:2606.29378v1 Announce Type: new Abstract: Sinhala is a morphologically rich abugida spoken by roughly 16 million people in Sri Lanka, and to date, there are no publicly available real-world datasets for page-level Sinhala OCR. All previous studies for assessing Sinhala OCR …