一项新的基准研究评估了十种OCR系统的性能,包括专门的OCR-VLMs和前沿的多模态LLMs,在梵文上的表现。研究发现,虽然许多系统在干净的合成文本上表现良好,但在退化条件和真实世界扫描上的性能会显著下降。专门的OCR-VLMs尤其脆弱,DeepSeek-OCR出现了灾难性的重复失败。值得注意的是,在英语OCR上的强劲表现与在印度语言脚本上的表现并不相关,GPT-5.5等模型出现了大幅下降。 AI
影响 凸显了当前多模态模型在非英语脚本上的局限性,表明需要改进多语言能力和鲁棒性。
排序理由 学术论文,提出了一个新的基准和关于特定脚本OCR性能的研究。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Opus 4.7
- DeepSeek-OCR
- Devanagari
- EasyOCR
- Gemini 2.5 Flash
- GPT-5.5
- Mistral OCR
- OCR-VLMs
- olmOCR-7B
- Qwen2.5-VL-3B
- Qwen3-VL-8B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →