研究人员开发了训练长上下文视觉文档理解模型的新方法,在MMLongBenchDoc等基准测试中取得了最先进的性能。一项研究侧重于参数高达32B的模型进行持续预训练、监督微调和偏好优化,发现训练上下文长度应与评估长度匹配,并且页码能显著提高性能。另一篇论文介绍了一个用于长文档理解推理的合成数据管道,使用“think”轨迹和“cot”控制令牌来内化推理,这使得一个32B参数的模型在MMLongBenchDoc上超越了一个大得多的模型。 AI
影响 这些进展可以显著提高AI在各种企业、法律和科学应用中处理和理解长文档的能力。
排序理由 arXiv上发表了两篇研究论文,详细介绍了训练长上下文视觉文档理解模型的新方法。
- arXiv
- Austin Veselka
- Hugging Face
- Mistral Small 3.1 24B
- MMLBD-C
- MMLongBenchDoc
- Qwen3 VL
- Qwen3 VL 235B
- Qwen3 VL 32B
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →