研究人员推出P-MTP,一个旨在显著加速视觉语言模型(VLM)文档解析的新框架。P-MTP采用渐进多令牌预测和渐进课程损失来管理深度前瞻扩展时的优化不稳定性。此外,还使用置信门控动态草稿来优化推理过程中的推测长度,最大限度地减少计算浪费。实验表明,P-MTP在文档解析方面可实现高达5倍的速度提升,同时精度损失极小。 AI
影响 加速VLM在文档解析方面的推理,可能实现对密集文档的更快处理。
排序理由 该集群包含一篇详细介绍文档解析新方法的论文。
- alphaXiv
- arXiv
- CatalyzeX
- Confidence-Gated Dynamic Drafting
- DagsHub
- Gotit.pub
- Hugging Face
- Multi Token Prediction
- P-MTP
- Progressive Curriculum Loss
- Progressive Multi-Token Prediction
- ScienceCast
- Vision-Language Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →