研究人员推出HK-LegiCoST,一个专为语音翻译研究设计的新型平行语料库。该语料库包含超过600小时的粤语音频、对应的繁体中文转录文本以及英文翻译,所有内容均在句子级别对齐。解决的一个关键挑战是非逐字转录的对齐问题,这种情况在口语和书面语形式差异显著时很常见,使其适用于存在白话和方言语音差异的语言。该语料库能够展示具有竞争力的语音翻译基线和跨语料库结果。 AI
排序理由 该集群描述了一篇介绍用于语音翻译研究的平行语料库的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →