百度已开源一款名为Unlimited OCR的新OCR模型,该模型通过模仿人类阅读习惯,在处理长文档方面表现出色。与传统的逐页处理文档然后拼接结果的OCR系统不同,Unlimited OCR采用了新颖的参考滑动窗口注意力(R-SWA)机制。这使其能够在不增加通常随文档长度而增加的内存和计算开销的情况下,保持连续阅读状态,并在OmniDocBench基准测试中达到了新的最先进水平。 AI
影响 引入了一种新颖的长文本AI记忆管理方法,可能影响OCR以外的各种基于序列的AI任务。
排序理由 大型科技公司(百度)发布的新OCR模型,具有新颖的注意力机制和基准性能声明。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- Baidu
- DeepSeek
- DeepSeek OCR
- GLM-OCR
- OmniDocBench
- PaddleOCR
- Reference Sliding Window Attention
- Unlimited OCR
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →