研究人员推出了GlobeAudio,这是一个旨在更真实、更自然的环境中评估大型音频语言模型(LALMs)的新基准。该基准包含5,637个多项选择题,涵盖六种不同的语言,由母语者使用自然发生的音频创建。使用GlobeAudio进行的初步评估显示出显著的性能差异,特别是对于开源模型和不太常见的语言,突显了LALM能力的当前局限性。 AI
影响 强调了当前LALM的关键局限性,并强调了对更真实的音频评估方法的需求。
排序理由 该集群描述了一篇介绍AI模型评估基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →