English(EN) StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension

StepFun推出StepAudio 2.5，支持实时语音和个性一致性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-24 22:51

StepFun发布了StepAudio 2.5 Realtime，这是一款能够进行实时、可定制化个性交互的端到端语音大语言模型。该模型集成了语音理解和生成能力，利用百万级个性数据增强和角色扮演特定的人类反馈强化学习（RLHF）来保持角色一致性。其关键的差异化优势在于副语言理解能力，能够从语气和语速等声音线索感知用户情绪和意图，在相关基准测试中取得了82.18分。 AI

影响通过改进的个性一致性和副语言理解能力，增强了实时对话式AI。

排序理由发布了具有新颖架构创新和基准测试结果的新款语音LLM。[lever_c_demoted from research: ic=1 ai=1.0]

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

MarkTechPost TIER_1 English(EN) · Michal Sutter · 2026-05-24 22:51

StepFun发布StepAudio 2.5 Realtime：具备角色扮演特定RLHF和副语言理解的端到端语音模型

<p>StepFun, the Shanghai-based AI lab, released StepAudio 2.5 Realtime in May 2026 — an end-to-end real-time speech large language model with fully customizable persona capabilities. The model connects via a WebSocket API, supports Chinese and English, and ranked first across all…

报道来源 [1]

StepFun发布StepAudio 2.5 Realtime：具备角色扮演特定RLHF和副语言理解的端到端语音模型

相关实体

相关话题