English(EN) P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

P-MTP框架通过5倍加速提升VLM文档解析效率

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-23 11:34

研究人员推出P-MTP，一个旨在显著加速视觉语言模型（VLM）文档解析的新框架。P-MTP采用渐进多令牌预测和渐进课程损失来管理深度前瞻扩展时的优化不稳定性。此外，还使用置信门控动态草稿来优化推理过程中的推测长度，最大限度地减少计算浪费。实验表明，P-MTP在文档解析方面可实现高达5倍的速度提升，同时精度损失极小。 AI

影响加速VLM在文档解析方面的推理，可能实现对密集文档的更快处理。

排序理由该集群包含一篇详细介绍文档解析新方法的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Le Xiang, Chenxi Zhai, Shu Wei, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He · 2026-06-24 04:00

P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

arXiv:2606.24447v1 Announce Type: new Abstract: Vision-Language Models (VLMs) have revolutionized document parsing by enabling end-to-end mapping from images to structured text, imposing a significant latency bottleneck, particularly for token-dense documents. While Multi-Token P…
arXiv cs.CV TIER_1 English(EN) · Wei He · 2026-06-23 11:34

P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

Vision-Language Models (VLMs) have revolutionized document parsing by enabling end-to-end mapping from images to structured text, imposing a significant latency bottleneck, particularly for token-dense documents. While Multi-Token Prediction (MTP) has emerged as a promising appro…

报道来源 [2]

P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

相关实体

相关话题