PulseAugur
实时 05:35:51

LLMs通过调整流畅性来改进多语言语音纠错

研究人员开发了一种新方法,利用大型语言模型(LLMs)来纠正多语言语音转录中的不流畅之处。该流程首先识别不流畅的词元,然后利用这些信号对LLM进行微调,以将转录稿改写为流畅的文本。添加了一个对比学习目标来惩罚不流畅词元的再现,确保语法和含义得以保留。在印地语、孟加拉语和马拉地语进行的实验表明,与现有基线相比有显著改进,为语音驱动的NLP系统提供了实用的解决方案。 AI

影响 通过提高转录质量,增强了语音驱动的NLP应用的准确性和可用性。

排序理由 该集群包含一篇学术论文,详细介绍了使用LLM进行语音纠错的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLMs通过调整流畅性来改进多语言语音纠错

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Asif Ekbal ·

    Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs

    Automatic Speech Recognition (ASR) transcripts often contain disfluencies, such as fillers, repetitions, and false starts, which reduce readability and hinder downstream applications like chatbots and voice assistants. If left unaddressed, such disfluencies can significantly degr…