一篇新研究论文分析了用于分类视觉丰富文档的多模态方法,比较了基于Transformer和LLM的架构。该研究在RVL-CDIP基准上评估了LayoutLMv3、Donut、Qwen3-VL-32B-Instruct和Qwen3-32B。结果表明,专门的多模态Transformer对于具有复杂布局的文档更优越,图像信息是分类最关键的因素。 AI
影响 为文档分类任务中选择有效的多模态架构和特征组合提供了指导。
排序理由 该集群包含一篇详细介绍AI模型比较分析的学术论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →