PulseAugur
实时 18:53:36
English(EN) Audio2Tool: Bridging Spoken Language Understanding and Function Calling

Audio2Tool 数据集评估 SpeechLMs 的复杂语音指令能力

研究人员推出了 Audio2Tool,这是一个新的基准数据集,旨在评估口语模型的函数调用能力。该数据集包含约 30,000 个查询,涵盖智能汽车、智能家居和可穿戴设备领域,复杂度从简单指令到多意图请求不等。对当前最先进模型的评估显示,在面对组合挑战和声学变化时,性能显著下降,突显了未来改进的方向。 AI

影响 引入了一个新的基准,以更好地评估口语模型调用工具的能力,有可能推动语音助手能力的改进。

排序理由 该集群描述了一篇介绍新数据集和基准以评估口语模型的新学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Audio2Tool 数据集评估 SpeechLMs 的复杂语音指令能力

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Ramit Pahwa, Apoorva Beedu, Parivesh Priye, Rutu Gandhi, Saloni Takawale, Aruna Baijal, Zengli Yang ·

    Audio2Tool: Bridging Spoken Language Understanding and Function Calling

    arXiv:2604.22821v1 Announce Type: cross Abstract: Voice assistants increasingly rely on Speech Language Models (SpeechLMs) to interpret spoken queries and execute complex tasks, yet existing benchmarks lack domain breadth, acoustic diversity, and compositional reasoning complexit…