PulseAugur
实时 02:22:29
English(EN) Datalab Releases lift: A 9B Open-Weights Vision Model That Extracts Structured JSON From PDFs Using Schemas

Datalab 发布 lift,一个用于结构化 PDF 提取的 9B 参数开放权重视觉模型

Datalab 推出了 lift,一个 9B 参数的开放权重视觉模型,专为从 PDF 和图像中提取结构化数据而设计。该模型以 JSON 模式作为输入,并生成符合该模式的 JSON 对象,在基准数据集上实现了 90.2% 的字段准确率。lift 可一次性处理整个多页文档,并提供模式约束解码,以确保输出的结构有效性。 AI

影响 该模型可以通过提供一个可自托管的开源解决方案,将非结构化文档数据转换为结构化 JSON,从而简化企业的 数据提取工作流程。

排序理由 一项新的开放权重模型的研发发布,并附有性能指标。

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Datalab 发布 lift,一个用于结构化 PDF 提取的 9B 参数开放权重视觉模型

报道来源 [2]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Datalab 发布 lift:一个 9B 参数的开放权重视觉模型,可使用 Schema 从 PDF 中提取结构化 JSON

    <p>Datalab released lift, a 9B open-weights vision model that turns PDFs and images into schema-matching JSON. It uses schema-constrained decoding for valid structure and trained abstention to return null instead of hallucinating absent fields, scoring 90.2% field accuracy on a 2…

  2. Mastodon — sigmoid.social TIER_1 English(EN) · [email protected] ·

    Datalab 发布了 lift,一个 9B 的开放权重视觉模型,该模型使用 JSON schema 从 PDF 中提取结构化 JSON。在 225- 上实现了 90.2% 的字段准确率

    Datalab has released lift, a 9B open-weights vision model that extracts structured JSON from PDFs using JSON schemas. It achieves 90.2% field accuracy on a 225-document benchmark and runs in 9.5 seconds per document. https://www. marktechpost.com/2026/06/23/da talab-releases-lift…