创建了一个新资源来跟踪开源光学字符识别 (OCR) 模型,整合了关于顶级模型、基准测试以及其论文和代码链接的信息。该计划重点介绍了百度最近发布的具有参考滑动窗口注意力机制的 3B 参数 Unlimited OCR 模型,以及可通过 API 获得的 Mistral 的 OCR 4。该平台旨在简化各种应用(如代理 RAG 和 AI 代理的数据摄取)的 OCR 模型选择。 AI
影响 为开发人员和研究人员提供了一个集中的资源,用于发现和比较开源 OCR 模型,有可能加速该领域的采用和发展。
排序理由 该条目描述了一个查找开源 OCR 模型的资源,而不是一个新模型发布或重要的行业发展。
- Ai2
- Baidu
- Chandra OCR 2
- DeepSeek OCR
- OCR 4
- OlmOCRBench
- OmniDocBench
- optical character recognition
- Papers with Code
- Reference Sliding Window Attention
- Shanghai AI Laboratory
- Unlimited OCR
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →