PulseAugur
实时 16:50:12
English(EN) StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension

StepFun推出StepAudio 2.5,支持实时语音和个性一致性

StepFun发布了StepAudio 2.5 Realtime,这是一款能够进行实时、可定制化个性交互的端到端语音大语言模型。该模型集成了语音理解和生成能力,利用百万级个性数据增强和角色扮演特定的人类反馈强化学习(RLHF)来保持角色一致性。其关键的差异化优势在于副语言理解能力,能够从语气和语速等声音线索感知用户情绪和意图,在相关基准测试中取得了82.18分。 AI

影响 通过改进的个性一致性和副语言理解能力,增强了实时对话式AI。

排序理由 发布了具有新颖架构创新和基准测试结果的新款语音LLM。[lever_c_demoted from research: ic=1 ai=1.0]

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

StepFun推出StepAudio 2.5,支持实时语音和个性一致性

报道来源 [1]

  1. MarkTechPost TIER_1 English(EN) · Michal Sutter ·

    StepFun发布StepAudio 2.5 Realtime:具备角色扮演特定RLHF和副语言理解的端到端语音模型

    <p>StepFun, the Shanghai-based AI lab, released StepAudio 2.5 Realtime in May 2026 — an end-to-end real-time speech large language model with fully customizable persona capabilities. The model connects via a WebSocket API, supports Chinese and English, and ranked first across all…