PulseAugur
实时 04:21:08
English(EN) How to Train Your Long-Context Visual Document Model

新方法提升长上下文视觉文档AI模型

研究人员开发了训练长上下文视觉文档理解模型的新方法,在MMLongBenchDoc等基准测试中取得了最先进的性能。一项研究侧重于参数高达32B的模型进行持续预训练、监督微调和偏好优化,发现训练上下文长度应与评估长度匹配,并且页码能显著提高性能。另一篇论文介绍了一个用于长文档理解推理的合成数据管道,使用“think”轨迹和“cot”控制令牌来内化推理,这使得一个32B参数的模型在MMLongBenchDoc上超越了一个大得多的模型。 AI

影响 这些进展可以显著提高AI在各种企业、法律和科学应用中处理和理解长文档的能力。

排序理由 arXiv上发表了两篇研究论文,详细介绍了训练长上下文视觉文档理解模型的新方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法提升长上下文视觉文档AI模型

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Austin Veselka ·

    如何训练你的长上下文视觉文档模型

    arXiv:2602.15257v3 Announce Type: replace-cross Abstract: We present the first comprehensive, large-scale study of training long-context vision language models up to 344K context, targeting long-document visual question answering with measured transfer to long-context text. While…

  2. arXiv cs.AI TIER_1 English(EN) · Austin Veselka ·

    面向长上下文视觉文档理解的内部化推理

    arXiv:2604.02371v2 Announce Type: replace-cross Abstract: Visual long-document understanding is critical for enterprise, legal, and scientific applications, yet the best performing open recipes have not explored reasoning, a capability which has driven leaps in math and code perf…