PulseAugur
实时 02:16:42
English(EN) P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

P-MTP框架通过5倍加速提升VLM文档解析效率

研究人员推出P-MTP,一个旨在显著加速视觉语言模型(VLM)文档解析的新框架。P-MTP采用渐进多令牌预测和渐进课程损失来管理深度前瞻扩展时的优化不稳定性。此外,还使用置信门控动态草稿来优化推理过程中的推测长度,最大限度地减少计算浪费。实验表明,P-MTP在文档解析方面可实现高达5倍的速度提升,同时精度损失极小。 AI

影响 加速VLM在文档解析方面的推理,可能实现对密集文档的更快处理。

排序理由 该集群包含一篇详细介绍文档解析新方法的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

P-MTP框架通过5倍加速提升VLM文档解析效率

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Le Xiang, Chenxi Zhai, Shu Wei, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He ·

    P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

    arXiv:2606.24447v1 Announce Type: new Abstract: Vision-Language Models (VLMs) have revolutionized document parsing by enabling end-to-end mapping from images to structured text, imposing a significant latency bottleneck, particularly for token-dense documents. While Multi-Token P…

  2. arXiv cs.CV TIER_1 English(EN) · Wei He ·

    P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling

    Vision-Language Models (VLMs) have revolutionized document parsing by enabling end-to-end mapping from images to structured text, imposing a significant latency bottleneck, particularly for token-dense documents. While Multi-Token Prediction (MTP) has emerged as a promising appro…