研究人员开发了NVMOS,一个旨在评估语音中非语言发声(NVs),如笑声和叹息的感知质量的新颖模型。现有的方法和像Gemini这样的通用多模态模型在评估这些NV事件方面表现出不一致性。NVMOS模型在NV-TTS系统输出和由声学专家评级的自然NV数据集上进行训练,旨在预测NV质量方面达到专家级的一致性。 AI
影响 引入了一个专门用于评估非语言发声的模型,可能改进TTS系统和人机交互的分析。
排序理由 该集群包含一篇详细介绍用于语音质量评估的新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →