StepFun发布了StepAudio 2.5 Realtime,这是一款能够进行实时、可定制化个性交互的端到端语音大语言模型。该模型集成了语音理解和生成能力,利用百万级个性数据增强和角色扮演特定的人类反馈强化学习(RLHF)来保持角色一致性。其关键的差异化优势在于副语言理解能力,能够从语气和语速等声音线索感知用户情绪和意图,在相关基准测试中取得了82.18分。 AI
影响 通过改进的个性一致性和副语言理解能力,增强了实时对话式AI。
排序理由 发布了具有新颖架构创新和基准测试结果的新款语音LLM。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →