研究人员推出了 ParaPairAudioBench,这是一个旨在评估大型音频语言模型 (LALM) 在区分语音中细粒度副语言特征能力的新基准。该基准包含 5,175 个音频对,涵盖五个维度:风格、语速、强调、年龄和性别。实验表明,当前的 LALM 裁判在平均 32 个百分点上未能达到人类判断水平,并且存在严重的校准问题,尤其是在需要弃权的情况下。 AI
影响 该基准有望推动 LALM 在更细致、更可靠的语音评估方面取得改进。
排序理由 该集群描述了一个用于评估 AI 模型的新学术基准。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →