PulseAugur
实时 21:12:35
English(EN) ForMaT: Dataset for Visually-Grounded Multilingual PDF Translation

新的ForMaT数据集旨在实现视觉基础的PDF翻译

研究人员推出了ForMaT,一个旨在改进视觉基础的多语言PDF翻译的新数据集。该数据集包含15种语言对的3,956个PDF,精心保留了原始布局元数据,以捕捉表格和公式等复杂元素。当前的机器翻译系统在保持文本与其视觉上下文之间的联系方面表现出明显的不足,这凸显了对能够整合视觉和文本信息以进行准确文档重建的、感知布局的模型的需求。 AI

影响 该数据集旨在提高机器翻译系统处理复杂文档布局的能力,有望实现对视觉丰富的文档进行更准确、更具上下文感知能力的翻译。

排序理由 该集群描述了一个针对特定NLP任务的新学术数据集的发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ForMaT数据集旨在实现视觉基础的PDF翻译

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Kamil Guttmann ·

    ForMaT: Dataset for Visually-Grounded Multilingual PDF Translation

    We present ForMaT (Format-Preserving Multilingual Translation), a parallel corpus of 3,956 PDFs across 15 language pairs that preserves original layout metadata proposed for multimodal machine translation. To ensure structural diversity in the dataset, we employ K-Medoids samplin…