PulseAugur
实时 16:51:11
English(EN) FormalASR: End-to-End Spoken Chinese to Formal Text

FormalASR系统将中文语音端到端转换为正式文本

研究人员开发了FormalASR,一个新颖的端到端系统,旨在将中文语音直接转换为正式书面文本。这种方法绕过了对单独的大型语言模型(LLM)进行后期编辑的需求,从而降低了设备上应用程序的延迟和计算成本。FormalASR利用经过微调的Qwen3-ASR模型(0.6B和1.7B参数),在新建的数据集WenetSpeech-Formal和Speechio-Formal上进行训练,显著降低了字符错误率并提高了文本质量指标。 AI

影响 为语音到文本转换提供了一种更高效、设备上的解决方案,减少了对多阶段LLM管道的依赖。

排序理由 该集群描述了一篇关于新型语音识别模型和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

FormalASR系统将中文语音端到端转换为正式文本

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yufei Zhang ·

    FormalASR: End-to-End Spoken Chinese to Formal Text

    Automatic speech recognition (ASR) systems are typically optimized for verbatim transcription, which preserves disfluencies, filler words, and informal spoken structures that are often unsuitable for downstream writing-oriented applications. A common workaround is a two-stage ASR…