研究人员推出了 Raon-Speech,一个拥有 90 亿参数的语音语言模型,能够理解、回答和生成英语和韩语的语音。该模型在超过 138 万小时的精选语音和文本数据上进行训练,在以语音为中心的任务上表现优于同等规模的音频基础模型,同时保持了强大的文本问答能力。一个名为 Raon-SpeechChat 的扩展通过额外的对话数据训练,进一步增强了实时全双工对话能力,在轮次转换和中断敏感性方面表现出色。 AI
影响 这款新的语音语言模型为语音理解和生成树立了新的标杆,有望改善人机交互和实时对话式 AI。
排序理由 该集群包含一篇关于新型语音语言模型的 arXiv 论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →