研究人员开发了FormalASR,一个新颖的端到端系统,旨在将中文语音直接转换为正式书面文本。这种方法绕过了对单独的大型语言模型(LLM)进行后期编辑的需求,从而降低了设备上应用程序的延迟和计算成本。FormalASR利用经过微调的Qwen3-ASR模型(0.6B和1.7B参数),在新建的数据集WenetSpeech-Formal和Speechio-Formal上进行训练,显著降低了字符错误率并提高了文本质量指标。 AI
影响 为语音到文本转换提供了一种更高效、设备上的解决方案,减少了对多阶段LLM管道的依赖。
排序理由 该集群描述了一篇关于新型语音识别模型和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →