研究人员开发了一种名为音素感知数据增强(PiDA)的新数据增强技术,以改进越南语语音翻译。该方法通过生成基于音素混淆的类ASR(自动语音识别)的损坏来解决级联语音翻译系统中的错误传播问题。在FLEURS越南语-英语数据集上使用PiDA进行微调,提高了对错误ASR输出的翻译准确性,BLEU分数显著提高。 AI
影响 提高语音翻译系统对ASR错误的鲁棒性,可能增强在嘈杂环境中的可用性。
排序理由 该集群包含一篇详细介绍语音翻译新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →