PulseAugur
实时 16:17:14
English(EN) Unlimited OCR Works

Unlimited OCR 模型采用新的注意力机制高效处理长文档

研究人员开发了 Unlimited OCR,这是一种新模型,解决了当前 OCR 系统在处理长文档时存在的内存和速度限制。通过用参考滑动窗口注意力 (R-SWA) 替换标准注意力层,该模型保持恒定的 KV 缓存,使其能够在一个前向传播中转录数十页。这种方法建立在 DeepSeek OCR 基线的基础上,也适用于 ASR 和翻译等其他序列任务。 AI

影响 能够更有效地处理长文档,用于 OCR 和其他基于序列的 AI 任务。

排序理由 发布了详细介绍新模型架构及其应用的技朮报告。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Unlimited OCR 模型采用新的注意力机制高效处理长文档

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Lei Jia ·

    Unlimited OCR Works

    Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR p…

  2. Hugging Face Daily Papers TIER_1 English(EN) ·

    Unlimited OCR Works

    Unlimited OCR introduces Reference Sliding Window Attention to eliminate growing memory consumption during long-sequence OCR tasks, enabling efficient transcription of multiple pages in a single forward pass.