PulseAugur
实时 10:53:32
English(EN) HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation

新的HK-LegiCoST语料库助力语音翻译研究

研究人员推出HK-LegiCoST,一个专为语音翻译研究设计的新型平行语料库。该语料库包含超过600小时的粤语音频、对应的繁体中文转录文本以及英文翻译,所有内容均在句子级别对齐。解决的一个关键挑战是非逐字转录的对齐问题,这种情况在口语和书面语形式差异显著时很常见,使其适用于存在白话和方言语音差异的语言。该语料库能够展示具有竞争力的语音翻译基线和跨语料库结果。 AI

排序理由 该集群描述了一篇介绍用于语音翻译研究的平行语料库的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur ·

    HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation

    arXiv:2306.11252v2 Announce Type: replace Abstract: We introduce HK-LegiCoST, a new three-way parallel corpus of Cantonese-English translations, containing 600+ hours of Cantonese audio, its standard traditional Chinese transcript, and English translation, segmented and aligned a…