English(EN) A Human-in-the-Loop Label Error Detection Framework Applied to Arabic-Script HTR Datasets

新框架通过AI和人工审核提升阿拉伯文HTR数据集质量

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了一种新颖的两阶段框架CER-HV，旨在提高用于训练手写文本识别（HTR）模型的数据集质量，特别是针对阿拉伯文脚本语言。该框架结合了卷积循环神经网络（CRNN）进行自动错误检测和“人在回路”验证过程。当应用于阿拉伯文数据集时，CER-HV成功识别了转录和分割错误等标签错误，在数据集清理和模型重新训练后，评估CER提高了多达1.8个百分点。 AI

影响提高了阿拉伯文HTR数据集的质量，可能加速该领域的研发。

排序理由该集群包含一篇详细介绍新框架和实验结果的学术论文，符合研究类别。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Sana Al-azzawi, Elisa Barney, Marcus Liwicki · 2026-06-16 04:00

A Human-in-the-Loop Label Error Detection Framework Applied to Arabic-Script HTR Datasets

arXiv:2601.16713v4 Announce Type: replace Abstract: Despite recent advances, Handwritten Text Recognition (HTR) for Arabic-script languages still lags behind Latin-script HTR. Part of the problem is dataset quality. To help closing this gap, we propose a two-stage framework (CER-…

报道来源 [1]

A Human-in-the-Loop Label Error Detection Framework Applied to Arabic-Script HTR Datasets

相关实体

相关话题