New dataset and baseline models advance Urdu handwritten text recognition

By PulseAugur Editorial · [1 sources] · 2026-06-17 14:46

Researchers have introduced the Urdu Katib Handwritten Dataset (UKHD), the first dataset specifically designed for offline Urdu handwritten text recognition from historical documents. This dataset captures variations in Nastalique calligraphy written by historical scribes. To establish a baseline, the study evaluated several Convolutional Recurrent Neural Network (CRNN) based models, finding that the CNN-BGRU-CTC architecture performed best with the lowest Character Error Rate (CER) and Word Error Rate (WER). The goal is to foster further research in recognizing and preserving Urdu handwritten literature. AI

IMPACT This new dataset and baseline evaluation could accelerate research into recognizing and preserving historical Urdu documents.

RANK_REASON The item describes a new dataset and baseline evaluation for a specific research task (Urdu handwritten text recognition), published on arXiv. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.CV →

paper
other

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

COVERAGE [1]

arXiv cs.CV TIER_1 English(EN) · Muhammad Usman Ali · 2026-06-17 14:46

Urdu Katib Handwritten Dataset: A Historical Document Dataset for Offline Urdu Handwritten Text Recognition with CRNN-Based Baseline Evaluation

Automatic Handwritten Text Recognition (HTR) is inherently a challenging task, and its complexity is further increased when dealing with cursive scripts. Although significant efforts have been made on various cursive scripts, research regarding Urdu Handwritten Text Recognition (…

COVERAGE [1]

Urdu Katib Handwritten Dataset: A Historical Document Dataset for Offline Urdu Handwritten Text Recognition with CRNN-Based Baseline Evaluation

RELATED ENTITIES

RELATED TOPICS