English(EN) How to Train Your Long-Context Visual Document Model

新方法提升长上下文视觉文档AI模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-30 04:00

研究人员开发了训练长上下文视觉文档理解模型的新方法，在MMLongBenchDoc等基准测试中取得了最先进的性能。一项研究侧重于参数高达32B的模型进行持续预训练、监督微调和偏好优化，发现训练上下文长度应与评估长度匹配，并且页码能显著提高性能。另一篇论文介绍了一个用于长文档理解推理的合成数据管道，使用“think”轨迹和“cot”控制令牌来内化推理，这使得一个32B参数的模型在MMLongBenchDoc上超越了一个大得多的模型。 AI

影响这些进展可以显著提高AI在各种企业、法律和科学应用中处理和理解长文档的能力。

排序理由 arXiv上发表了两篇研究论文，详细介绍了训练长上下文视觉文档理解模型的新方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Austin Veselka · 2026-06-30 04:00

如何训练你的长上下文视觉文档模型

arXiv:2602.15257v3 Announce Type: replace-cross Abstract: We present the first comprehensive, large-scale study of training long-context vision language models up to 344K context, targeting long-document visual question answering with measured transfer to long-context text. While…
arXiv cs.AI TIER_1 English(EN) · Austin Veselka · 2026-06-30 04:00

面向长上下文视觉文档理解的内部化推理

arXiv:2604.02371v2 Announce Type: replace-cross Abstract: Visual long-document understanding is critical for enterprise, legal, and scientific applications, yet the best performing open recipes have not explored reasoning, a capability which has driven leaps in math and code perf…

报道来源 [2]

如何训练你的长上下文视觉文档模型

面向长上下文视觉文档理解的内部化推理

相关实体

相关话题