研究人员开发了一个在KSAA-2026阿拉伯语语音听写与自动注字共享任务中获胜的系统。该系统名为Thaka,使用2327个样本的有限数据集对CATT-Whisper多模态模型进行了微调。其成功的关键在于训练正则化技术,包括R-Drop一致性正则化、优化的超参数和Focal Loss,以及在推理过程中平均来自四个模型检查点的200次随机前向传播。这种方法实现了23.26%的词错误率(WER),在参赛者中获得第一名。 AI
影响 展示了低资源语音注字任务的高级微调技术。
排序理由 该集群包含一篇研究论文,详细介绍了在自动语音识别和注字特定任务中获胜的系统。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →