百度已开源Unlimited-OCR,这是一款专为长文档高效准确的光学字符识别(OCR)设计的新模型。该系统采用“一次性长视野解析”方法,能够通过恒定的KV缓存处理大量文本,从而在OmniDocBench等基准测试中取得最先进的性能。该模型支持与Hugging Face Transformers等流行库以及vLLM和SGLang等推理引擎集成,使其成为文档分析和知识提取的通用工具。 AI
影响 该模型可以显著提高长而复杂文档的文档分析和数据提取效率。
排序理由 主要科技公司(百度)发布新的OCR模型,并声称达到最先进的性能。
- Baidu
- baidu/Unlimited-OCR
- DeepSeek OCR
- Docker
- Hugging Face
- OpenAI
- SGLang
- transformers
- vLLM
- KV cache
- Unlimited OCR
- OmniDocBench
- optical character recognition
AI 生成摘要 · Google Gemini · 来自 8 个来源。 我们如何撰写摘要 →