研究人员推出了 Audio2Tool,这是一个新的基准数据集,旨在评估口语模型的函数调用能力。该数据集包含约 30,000 个查询,涵盖智能汽车、智能家居和可穿戴设备领域,复杂度从简单指令到多意图请求不等。对当前最先进模型的评估显示,在面对组合挑战和声学变化时,性能显著下降,突显了未来改进的方向。 AI
影响 引入了一个新的基准,以更好地评估口语模型调用工具的能力,有可能推动语音助手能力的改进。
排序理由 该集群描述了一篇介绍新数据集和基准以评估口语模型的新学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →