最近对五个语音 AI 栈进行的基准测试显示,只有两个能够持续在关键的 300 毫秒延迟阈值内响应。作者发现,将语音识别 (STT)、大语言模型 (LLM) 和语音合成 (TTS) 合并为单一流程的端到端语音模型,其性能显著优于级联模型。这些级联系统由于串行处理语音识别、LLM 首个 token 的生成时间、语音合成以及网络往返时间,难以满足延迟要求。速度最快的两个栈是 OpenAI 的 Realtime API 配合 GPT-4o,以及 LiveKit Agents 配合 Google 的 Gemini 2.0 Flash。 AI
影响 端到端语音模型为显著降低延迟提供了途径,改善了用户体验,并实现了更自然的对话式 AI 交互。
排序理由 该文章展示了对现有语音 AI 技术的独立基准测试和分析,而非新的发布或产品推出。[lever_c_demoted from research: ic=1 ai=0.7]
- AssemblyAI
- Cartesia Sonic
- Claude Sonnet 4.6
- Coqui XTTS
- Deepgram
- ElevenLabs Turbo v2.5
- Gemini 2.0 Flash
- GPT-4o
- LiveKit Agents
- Llama 3.3 70B
- OpenAI
- Pipecat
- Retell
- Whisper Large v3 Turbo
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →