研究人员开发了一个新的数据集 sinhala-ocr-lk-acts-1010,以改进僧伽罗语的光学字符识别 (OCR)。僧伽罗语是斯里兰卡约 1600 万人使用的语言。该数据集包含 1010 页图像及其转录文本,来源是跨越二十年的斯里兰卡立法法案。实验对包括 DeepSeek-OCR V1、DeepSeek-OCR V2 和 LightOnOCR-2-1B 在内的三个深度学习模型进行了微调,结果表明 LightOnOCR-2-1B 取得了最佳性能,字符错误率为 1.05%,显著优于其他开源和商业 OCR 解决方案。 AI
影响 改进了低资源语言的 OCR 能力,可能有助于历史文献的数字化和可访问性。
排序理由 学术论文介绍了新的数据集和 OCR 模型评估。[lever_c_demoted from research: ic=1 ai=1.0]
- DeepSeek-OCR V1
- DeepSeek-OCR V2
- Google Document AI
- LightOnOCR-2-1B
- Nevidu Jayatilleke
- QLoRA
- Sinhala
- sinhala-ocr-lk-acts-1010
- Sri Lanka
- Surya-OCR
- Tesseract v5
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →