研究人员推出了AudioDER,一个旨在增强大型音频语言模型(LALMs)推理能力的新数据集。该数据集通过去重过程提高多样性,解决了现有音频语言数据集中冗余的问题。AudioDER包含约191,000个样本,每个样本包括一个音频片段、一个多项选择题、答案选项、一个音频字幕以及由Qwen3-30B生成的思维链推理过程。实验表明,在AudioDER上对Qwen2-Audio-7B-Instruct等LALMs进行预训练后,在各种音频推理基准测试上的性能得到了一致提升。 AI
影响 该数据集有望加速LALMs在音频推理方面的进展,从而带来更复杂的音频理解应用。
排序理由 该集群描述了一个新的学术数据集和研究论文,专注于改进AI模型。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →