PulseAugur
实时 11:21:19
English(EN) Visual Template Inference for Data Extraction from Documents

TWIX系统推断文档模板以实现高效数据提取

研究人员开发了TWIX,一个用于从发票和财务报告等模板化文档中提取数据的新颖系统。TWIX不直接处理文档,而是推断生成它们的底层视觉模板。这种方法显著提高了准确性和效率,在多样化基准测试中,其精度和召回率比现有工具甚至GPT-4-Vision高出25%以上。TWIX还展现出卓越的可扩展性,对于大型文档集合,其速度和成本比竞争对手低几个数量级。 AI

影响 这种模板推理方法可以显著降低大规模文档处理任务的成本并提高其准确性。

排序理由 该集群包含一篇详细介绍新系统及其性能基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Yiming Lin, Mawil Hasan, Rohan Kosalge, Alvin Cheung, Aditya G. Parameswaran ·

    从文档中提取数据的视觉模板推理

    arXiv:2501.06659v2 Announce Type: replace-cross Abstract: Many templatized documents are programmatically generated from structured data following a visual template. Such documents include invoices, tax documents, financial reports, and purchase orders. Effective data extraction …