Large Audio-Language Models

新流程 Auto-AEG 提升了 LALM 的音频事件定位能力

研究人员开发了 Auto-AEG，这是一个可扩展的流程，旨在为开放词汇音频事件定位构建监督数据。该任务旨在在音频中精确定位由自然语言查询描述的声音事件，这是当前大型音频语言模型 (LALM) 所缺乏的能力。Auto-AEG 通过结合具有精确时间标注的合成音频片段和来自真实世界音频的伪标签来解决数据稀缺问题，从而能够进行微调以提高在 DESED SED 和 AEGBench 等基准测试上的性能。

RESEARCH · CL_129126 · Jul 3 · 00:00

新的VIBE框架揭示了大型音频语言模型中的系统性偏见

一个名为VIBE的新框架已被开发出来，用于通过真实语音和开放式任务来评估大型音频语言模型（LALMs）中的偏见。与依赖合成语音或多项选择题的先前方法不同，VIBE允许偏见自然出现，从而提供更全面的公平性视图。使用VIBE对12个领先的LALMs进行的评估揭示了系统性偏见，特别是在响应性别和口音线索时，偏见的严重程度高度依赖于特定任务。

TOOL · CL_121484 · Jul 2 · 04:00

新方法通过自适应变换提高音频语言模型的准确性

研究人员开发了一种名为自适应扰动选择（APS）的新方法，以提高大型音频语言模型（LALMs）的准确性。现有的对比解码技术通常使用掩码或噪声等粗略方法，但APS探索了更广泛的音频变换范围。通过测试各种时间域、频谱域、频率域和幅度域的扰动，研究发现最优变换是任务特定的。例如，音频反转将时间顺序准确性从74.7%提高到81.4%。一个在模型状态上训练的轻量级选择器通过动态路由负分支进一步提高了性能，在存在任务上额外增加了4.3%的增益。

TOOL · CL_119468 · Jul 1 · 04:00

ALM2Vec框架使用大型音频语言模型进行通用音频检索

研究人员推出了一种新颖的框架ALM2Vec，旨在通过利用大型音频语言模型（LALMs）来创建通用音频嵌入。与以往专注于音频-字幕匹配的方法不同，ALM2Vec旨在支持更广泛的检索目标和可控行为。该框架转移了LALMs的能力，实现了面向指令的检索，用于音频问答和面向方面检索等任务。实验表明，ALM2Vec在标准基准测试中表现具有竞争力，同时展示了在不同领域和用户意图中统一音频嵌入的潜力。

TOOL · CL_109873 · Jun 24 · 04:42

新基准评估音频大语言模型上下文感知场景理解能力

研究人员推出了一项名为CASU（上下文感知听觉场景理解）的新基准，用于评估大型音频语言模型（LALMs）。现有基准通常孤立地评估语音或声音等音频层，未能捕捉这些元素在真实听觉场景中的交互方式。CASU基准旨在衡量LALM整合语音、事件和背景噪音等各种声音层以理解整体场景并推理它们之间关系的能力。使用此基准进行的实验表明，有效的听觉场景理解需要跨所有声音层的整合，这凸显了CASU在推进LALM复杂音频理解方面的必要性。

TOOL · CL_113484 · Jun 23 · 14:43

新基准显示 LALM 裁判在副语言评估方面落后于人类

研究人员开发了 ParaPairAudioBench，这是一个旨在评估大型音频语言模型 (LALM) 在区分语音中细微副语言特征能力的新基准。该基准包含 5,175 个音频对，涵盖五个维度：风格、语速、强调、年龄和性别。目前的 LALM 裁判表现明显不如人类评估，平均落后 32 个百分点，并且在校准方面存在困难，尤其是在正确判断应弃权时。

TOOL · CL_98002 · Jun 18 · 04:00

新的CoAT框架通过连续思考空间增强大型音频语言模型

研究人员开发了一个名为连续音频思考（CoAT）的新框架，旨在增强大型音频语言模型（LALMs）的能力。CoAT为这些模型配备了一个连续的潜在工作空间，用于在生成响应之前组织声学信息，使它们能够更好地利用语音细节、韵律和其他声学元素。这种方法不会增加自回归解码的成本，并且在与Qwen2-Audio、Qwen2.5-Omni-7B和Audio Flamingo等模型进行测试时，在各种音频理解和推理任务中都显示出性能提升。

RESEARCH · CL_96198 · Jun 17 · 04:00

新基准应对大型语言模型的隐私风险

研究人员开发了新的方法来评估针对大型语言模型（LLM）的成员推理攻击（MIA），特别关注音频和文本模态。第一项研究引入了一种系统性的评估方法，用于大型音频语言模型（LALM），使用“多模态盲基线”来控制分布偏移，揭示了记忆是跨模态的，并且与说话人的声音身份有关。第二篇论文CheckMIABench提出了一种基于中间训练检查点和公共数据进行LLM原则性MIA评估的框架，展示了其在Pythia和OLMo模型上的应用，并发布了一个模块化库以…

RESEARCH · CL_90823 · Jun 12 · 16:09

新的AudioDER数据集提升LALM推理能力

研究人员推出了AudioDER，一个旨在增强大型音频语言模型（LALMs）推理能力的新数据集。该数据集通过去重过程提高多样性，解决了现有音频语言数据集中冗余的问题。AudioDER包含约191,000个样本，每个样本包括一个音频片段、一个多项选择题、答案选项、一个音频字幕以及由Qwen3-30B生成的思维链推理过程。实验表明，在AudioDER上对Qwen2-Audio-7B-Instruct等LALMs进行预训练后，在各种音频推理基…

TOOL · CL_77280 · Jun 8 · 04:00

SpectCount 使用合成音频来增强大型音频语言模型

研究人员开发了 SpectCount，一种通过使用合成音频信号来改进大型音频语言模型 (LALM) 的新颖方法。该方法通过即时生成信号来解决高质量标注音频数据稀缺的问题，而无需真实世界数据或预训练的生成模型。SpectCount 针对基础 LALM 中识别出的特定光谱时间感知弱点，从而在声音、音乐和语音等各种听觉基准测试中提高了性能。

RESEARCH · CL_79160 · Jun 7 · 11:07

新的适配器为音频大语言模型添加测试时记忆，以改善情感识别

研究人员开发了一种名为 Titans-as-a-Layer (MAL) 的新方法，以增强对话语音情感识别。这种即插即用的适配器将测试时神经网络记忆集成到大型音频语言模型中，而无需改变其核心结构。MAL 适配器将对话历史写入小型内存中，并利用其提供上下文更新，显著提高了在各种指标和数据集上的 SER 性能。

RESEARCH · CL_79146 · Jun 6 · 14:24

新的GlobeAudio基准测试AI音频模型在自然语言方面的表现

研究人员推出了GlobeAudio，这是一个旨在更真实、更自然的环境中评估大型音频语言模型（LALMs）的新基准。该基准包含5,637个多项选择题，涵盖六种不同的语言，由母语者使用自然发生的音频创建。使用GlobeAudio进行的初步评估显示出显著的性能差异，特别是对于开源模型和不太常见的语言，突显了LALM能力的当前局限性。

RESEARCH · CL_70168 · Jun 3 · 00:00

新型音频交互模型统一实时音频任务

研究人员推出音频交互模型（AIM），这是一种新颖的大型音频语言模型（LALM），专为实时、交互式音频处理而设计。与之前的离线或单任务流式模型不同，AIM 在连续的感知-决策-响应循环上运行，使其能够动态地理解和响应环境声音和指令。该模型得到了 SoundFlow 框架（用于端到端开发）、名为 StreamAudio-2M 的新数据集以及用于评估主动音频干预的基准的支持。

TOOL · CL_58813 · May 29 · 04:00

EvA 架构增强大型语言模型的音频理解能力

研究人员推出了一种新颖的双路径架构 EvA（Evidence-First Audio），旨在提高大型音频语言模型（LALM）的性能。EvA 通过分层聚合和时间对齐融合来增强任务相关声学证据的保留，从而解决了“证据瓶颈”问题。配套的 EvA-Perception 训练集包含事件排序的字幕和证据基础问答对，支持此方法。在零样本协议下，EvA 在 MMAU、MMAR 和 MMSU 等以感知为中心的基准测试中表现出色，人类评估证实了其细粒度声…

TOOL · CL_58710 · May 29 · 04:00

新基准和方法改进音乐大语言模型的时间定位能力

研究人员推出了 MusTBENCH，这是一个旨在评估大型音频语言模型（LALMs）在音乐理解中的时间定位能力的新基准。现有的 LALMs 在准确识别音频中的特定时间区域方面常常遇到困难，而这对于精确定位乐器进入或节奏变化等任务至关重要。为了解决这个问题，该团队还开发了 MusT，这是一个四阶段的优化过程，可以增强 LALMs 的时间定位能力，与基线模型相比有了显著的改进。

RESEARCH · CL_58559 · May 28 · 14:53

新研究揭示了 LLM 和 LALM 的越狱漏洞不断升级

三篇新研究论文探讨了大型语言模型 (LLM) 和大型音频语言模型 (LALM) 的漏洞和防御。第一篇论文详细介绍了音频越狱攻击和防御的分类法，强调目前的防御措施通常会牺牲可用性来换取鲁棒性。第二篇论文全面回顾了 LLM 的漏洞，对攻击和防御进行了分类，并指出了在弹性对齐和自动检测等领域的研究空白。第三篇论文介绍了“越狱规模定律”，证明了对抗性提示如何将攻击成功率从多项式增长转变为指数增长，这种现象在各种 LLM 和攻击方法中都有观察到。

TOOL · CL_56372 · May 28 · 04:00

新协议评估音频大语言模型的事实音乐理解能力

研究人员开发了一种新协议，用于准确评估大型音频语言模型（LALM）的事实音乐理解能力。现有的MusicQA数据集被发现不足以衡量LALM响应的事实正确性。新协议提示LALM提供可验证的信息，并将它们的开放式回答解析为结构化格式，以便使用精确率、召回率和F1分数进行客观评估。该协议被用于在三个数据集的六项事实信息检索任务上对包括Gemini和Music Flamingo在内的九个LALM进行基准测试。

RESEARCH · CL_36822 · May 17 · 13:00

隐藏音频攻击危及AI语音系统

新研究表明，包括大型音频语言模型（LALMs）在内的AI语音系统容易受到隐藏音频攻击。这些攻击将人耳无法察觉的声音嵌入音频片段，使恶意行为者能够以高成功率操纵AI模型执行未经授权的命令。该技术被称为AudioHijack，即使在用户提供不同指令的情况下，也能欺骗模型执行敏感的网络搜索或发送电子邮件等操作。

RESEARCH · CL_06671 · Apr 28 · 04:00

HeadRouter 通过路由注意力头来修剪 LLM 中的音频令牌

研究人员推出了一种名为 HeadRouter 的新方法，通过动态修剪音频令牌来压缩大型音频语言模型。与先前假设头重要性均一的方法不同，HeadRouter 认识到这些模型中的不同注意力头根据音频任务具有不同的贡献。这种无需训练的技术可以识别并利用特定注意力头的重要性来保留关键令牌，从而在不牺牲性能的情况下实现显著压缩。实验表明，HeadRouter 实现了最先进的压缩效果，在保留大量令牌的情况下，甚至在 AudioMarathon 和…

RESEARCH · CL_06271 · Apr 27 · 12:25

音频语言模型常在没有音频的情况下回答问题，挑战了评估方法。

新研究表明，大型音频语言模型（LALMs）可能不具备真正的听觉感知能力，尽管它们在基准测试中得分很高。研究显示，这些模型仅凭文本和通用知识就能回答问题，在没有音频输入的情况下仍能保持相当一部分性能。此外，当需要音频时，模型通常只需要片段而非完整音频剪辑，这挑战了当前评估方法在衡量稳健音频理解方面的可靠性。