PulseAugur
实时 04:19:29
English(EN) CzechDocs: A Multiway Parallel Dataset of Formatted Documents for Minority Languages in Czechia

捷克发布新数据集,用于格式保持的机器翻译

研究人员推出了 CzechDocs,这是一个旨在评估机器翻译系统格式保持能力的新数据集。该数据集包含捷克语和多种少数民族语言(如乌克兰语、英语、越南语和俄语)的并行文档,格式包括 HTML、DOCX 和 PDF。数据集的一部分和评估工具包已发布,以促进格式保持机器翻译的研究。 AI

影响 促进了在保持文档格式的机器翻译系统方面的研究,尤其针对少数民族语言。

排序理由 该条目描述了一个为研究目的发布的新数据集,符合“研究”类别。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

捷克发布新数据集,用于格式保持的机器翻译

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Ondřej Bojar ·

    CzechDocs:捷克少数民族语言的格式化文档多路并行数据集

    We present CzechDocs, a multiway parallel dataset of formatted documents (HTML, DOCX, and PDF) covering Czech and minority languages used in Czechia-primarily Ukrainian and English, with smaller portions of Vietnamese, Russian and other languages. The dataset is designed to suppo…