PulseAugur
实时 04:41:23
English(EN) Can OCR-VLMs Read Devanagari? A Stress-Test Benchmark and Post-Correction Study

AI模型难以处理梵文OCR,新基准测试揭示

一项新的基准研究评估了十种OCR系统的性能,包括专门的OCR-VLMs和前沿的多模态LLMs,在梵文上的表现。研究发现,虽然许多系统在干净的合成文本上表现良好,但在退化条件和真实世界扫描上的性能会显著下降。专门的OCR-VLMs尤其脆弱,DeepSeek-OCR出现了灾难性的重复失败。值得注意的是,在英语OCR上的强劲表现与在印度语言脚本上的表现并不相关,GPT-5.5等模型出现了大幅下降。 AI

影响 凸显了当前多模态模型在非英语脚本上的局限性,表明需要改进多语言能力和鲁棒性。

排序理由 学术论文,提出了一个新的基准和关于特定脚本OCR性能的研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

AI模型难以处理梵文OCR,新基准测试揭示

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Aditya Pratap Singh ·

    Can OCR-VLMs Read Devanagari? A Stress-Test Benchmark and Post-Correction Study

    arXiv:2606.29213v1 Announce Type: new Abstract: OCR systems, ranging from classical engines to specialised OCR vision-language models (OCR-VLMs) and frontier multimodal LLMs, report strong results on English and Chinese document benchmarks, yet their behaviour on Indic scripts is…