PulseAugur
实时 23:14:39
English(EN) Raon-Speech Technical Report

Raon-Speech 发布 90 亿参数模型,用于语音理解与生成

研究人员推出了 Raon-Speech,一个拥有 90 亿参数的语音语言模型,能够理解、回答和生成英语和韩语的语音。该模型在超过 138 万小时的精选语音和文本数据上进行训练,在以语音为中心的任务上表现优于同等规模的音频基础模型,同时保持了强大的文本问答能力。一个名为 Raon-SpeechChat 的扩展通过额外的对话数据训练,进一步增强了实时全双工对话能力,在轮次转换和中断敏感性方面表现出色。 AI

影响 这款新的语音语言模型为语音理解和生成树立了新的标杆,有望改善人机交互和实时对话式 AI。

排序理由 该集群包含一篇关于新型语音语言模型的 arXiv 论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Beomsoo Kim, Changho Choi, Dohyun Kim, Dongki Lee, Ethan Ewer, Eunchong Kim, Gyeongman Kim, Haechan Kim, Hyeonghwan Kim, Inkyu Park, Jihun Yun, Jihwan Moon, Jiyun Kim, Joonghyun Bae, Junhyuck Kim, Minkyu Kim, Sehun Lee, Seungjun Chung, Sungwoo Cho, Dongm… ·

    Raon-Speech Technical Report

    arXiv:2605.23912v1 Announce Type: cross Abstract: We present Raon-Speech, a top-performing 9B-parameter speech language model (SpeechLM) for English and Korean speech understanding, answering, and generation, and Raon-SpeechChat, a high-performing full-duplex extension for natura…