研究人员开发了 Unlimited OCR,这是一种新模型,解决了当前 OCR 系统在处理长文档时存在的内存和速度限制。通过用参考滑动窗口注意力 (R-SWA) 替换标准注意力层,该模型保持恒定的 KV 缓存,使其能够在一个前向传播中转录数十页。这种方法建立在 DeepSeek OCR 基线的基础上,也适用于 ASR 和翻译等其他序列任务。 AI
影响 能够更有效地处理长文档,用于 OCR 和其他基于序列的 AI 任务。
排序理由 发布了详细介绍新模型架构及其应用的技朮报告。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →