PulseAugur
实时 11:22:24
English(EN) PereStruct: Multimodal Semantic Assembly for Robust Historical Document Parsing

PereStruct 管道鲁棒地解析复杂的历史文档

研究人员开发了 PereStruct,一个用于解析复杂历史文档(尤其是报纸)的新管道,这类文档常常让当前的视觉语言模型感到困惑。该系统集成了用于布局分析的微调 YOLO 架构和一个使用 TF-IDF、视觉嵌入和几何约束来重建文章的语义组装模块。PereStruct 在块到文章映射上取得了 0.904 的最先进 F1 分数,并且在保真度方面显著优于 Qwen3.6 等通用视觉语言模型。 AI

影响 为历史文档分析树立了新的基准,可能加速档案数字化和研究。

排序理由 详细介绍文档解析新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Maksim Shandybo, Ivan Bespalov, Daniil Yefimov, Marina Kosheleva, Alexander Loukianov ·

    PereStruct:多模态语义组装用于鲁棒的历史文献解析

    arXiv:2606.07661v1 Announce Type: new Abstract: Parsing historical documents with complex, non-standard layouts remains a fundamental bottleneck in large-scale archival digitization. Unlike modern typography, historical newspapers exhibit severe physical degradation and highly ir…