English(EN) Can OCR-VLMs Read Devanagari? A Stress-Test Benchmark and Post-Correction Study

AI模型难以处理梵文OCR，新基准测试揭示

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

一项新的基准研究评估了十种OCR系统的性能，包括专门的OCR-VLMs和前沿的多模态LLMs，在梵文上的表现。研究发现，虽然许多系统在干净的合成文本上表现良好，但在退化条件和真实世界扫描上的性能会显著下降。专门的OCR-VLMs尤其脆弱，DeepSeek-OCR出现了灾难性的重复失败。值得注意的是，在英语OCR上的强劲表现与在印度语言脚本上的表现并不相关，GPT-5.5等模型出现了大幅下降。 AI

影响凸显了当前多模态模型在非英语脚本上的局限性，表明需要改进多语言能力和鲁棒性。

排序理由学术论文，提出了一个新的基准和关于特定脚本OCR性能的研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Aditya Pratap Singh · 2026-06-30 04:00

Can OCR-VLMs Read Devanagari? A Stress-Test Benchmark and Post-Correction Study

arXiv:2606.29213v1 Announce Type: new Abstract: OCR systems, ranging from classical engines to specialised OCR vision-language models (OCR-VLMs) and frontier multimodal LLMs, report strong results on English and Chinese document benchmarks, yet their behaviour on Indic scripts is…

报道来源 [1]

Can OCR-VLMs Read Devanagari? A Stress-Test Benchmark and Post-Correction Study

相关实体

相关话题