English(EN) Urdu Katib Handwritten Dataset: A Historical Document Dataset for Offline Urdu Handwritten Text Recognition with CRNN-Based Baseline Evaluation

新数据集和基线模型推动乌尔都语手写文本识别发展

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 14:46

研究人员推出了 Urdu Katib 手写数据集 (UKHD)，这是第一个专门为识别史料中的离线乌尔都语手写文本而设计的数据集。该数据集捕捉了历史书吏书写的 Nastalique 书法变体。为了建立基线，该研究评估了几种基于卷积循环神经网络 (CRNN) 的模型，发现 CNN-BGRU-CTC 架构在最低的字符错误率 (CER) 和词错误率 (WER) 下表现最佳。其目标是促进对乌尔都语手写文学的识别和保存的进一步研究。 AI

影响这个新数据集和基线评估有望加速对历史乌尔都语文献的识别和保存研究。

排序理由该条目描述了一个针对特定研究任务（乌尔都语手写文本识别）的新数据集和基线评估，发布在 arXiv 上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Muhammad Usman Ali · 2026-06-17 14:46

Urdu Katib 手写数据集：用于离线乌尔都语手写文本识别的历史文献数据集，附带基于 CRNN 的基线评估

Automatic Handwritten Text Recognition (HTR) is inherently a challenging task, and its complexity is further increased when dealing with cursive scripts. Although significant efforts have been made on various cursive scripts, research regarding Urdu Handwritten Text Recognition (…

报道来源 [1]

Urdu Katib 手写数据集：用于离线乌尔都语手写文本识别的历史文献数据集，附带基于 CRNN 的基线评估

相关实体

相关话题