PulseAugur
实时 06:45:22
English(EN) Real-Time Voice AI Hears but Does Not Listen

研究发现:语音AI系统未能对检测到的情绪做出反应

一项评估OpenAI、Google和阿里巴巴四款领先的实时语音AI系统的最新研究论文揭示了一个显著的“情商差距”。这些系统通常能够感知来电者声音中的痛苦或讽刺等情绪,但未能根据这些信息采取行动,而是优先处理所说的字面意思。在涉及哭泣的来电者、表示同意转移的恐惧声音以及讽刺的同意等场景中都观察到了这种脱节,这表明当前的语音AI通常将语音作为文本记录而非整体沟通来处理。虽然明确提示注意语音语调会显示出一些改进,但并不一致,这表明在将这些系统部署到语调和情绪至关重要的环境中时需要谨慎。 AI

影响 当前的语音AI系统可能会误解关键的情绪线索,在敏感应用中需要谨慎。

排序理由 评估现有AI系统的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现:语音AI系统未能对检测到的情绪做出反应

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · James Zou ·

    Real-Time Voice AI Hears but Does Not Listen

    Speech conveys information through both words and vocal delivery. We evaluate four leading production realtime voice systems-OpenAI's GPT Realtime 2, Google's Gemini 3.1 Flash Live, and Alibaba's Qwen3.5 Omni Plus and Omni Flash-on tasks where the words and the delivery patterns …