实体 Audio Language Models

Audio Language Models

PulseAugur coverage of Audio Language Models — every cluster mentioning Audio Language Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 10

发布 · 30天

90 天内 0

论文 · 30天

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

RESEARCH · CL_119534 · Jun 30 · 12:40

ZEBRA 框架增强音频语言模型泛化能力

研究人员开发了 ZEBRA，一个旨在提高音频语言模型 (ALM) 泛化能力的新框架。ZEBRA 解决了提示学习在提高已知类别性能的同时可能降低新类别或未见类别准确性的权衡问题。通过将零样本和提示学习的 logits 与自熵正则化相结合，ZEBRA 旨在减少对基础类别的过拟合，并显著缩小基础到新颖泛化的差距。实验表明，ZEBRA 在提高新类别性能的同时，能够保持强大的基础准确性。
TOOL · CL_105203 · Jun 22 · 12:28

新框架增强临床音频诊断的上下文学习能力

研究人员开发了一个名为联邦自语境化（FSC）的新框架，旨在改善临床环境中音频-语言模型的上下文学习能力，尤其是在资源匮乏的环境中。该多模态模型框架旨在通过少量示例诊断疾病，而无需大型标注数据集。FSC利用无监督聚类创建伪标签集，并通过支持-查询对实现上下文推理，在2次示例评估中对呼吸系统和心脏疾病的准确率达到71.6%。
TOOL · CL_93750 · Jun 16 · 04:00

新框架通过可训练的音频提示增强音频语言模型

研究人员为音频语言模型（ALMs）开发了一个新框架，该框架将可训练的提示直接引入音频编码器。这种方法旨在捕获任务特定的声学特征，通过补充现有的文本端提示学习方法来增强少样本适应性。在11个数据集上的实验表明，当与文本提示调优集成时，这种即插即用模块通常可以提高性能，这表明对音频表示空间进行显式调制是有效的。
RESEARCH · CL_76796 · Jun 5 · 14:26

音频语言模型通过声学线索改进语音情感识别

研究人员开发了一种通过整合明确的声学线索来改进音频语言模型中语音情感识别的方法。通过从副语言特征中提取六个可解释的声学概念标记，他们发现将这些标记与音频输入对齐可以提高模型性能。相反，错位或损坏的标记会降低准确性，这表明模型对符号线索通道敏感，同时保留了一些音频信号基础。
RESEARCH · CL_70436 · Jun 3 · 17:57

音频语言模型用冲突文本覆盖清晰音频

研究人员发现音频语言模型中存在一个重大问题，即冲突的文本输入会覆盖清晰的音频证据，导致输出不正确。一项新研究显示，在五个模型中，64.1%的冲突案例中，音频信息虽然存在，但在内部仲裁过程中却被忽略了。为了解决这个问题，开发了一种名为门控音频反事实对数校正（GACL）的新解码规则，该规则在文本和音频分数之间进行插值以提高保真度，并且可以应用于视觉-文本仲裁等其他模态。
RESEARCH · CL_65876 · Jun 2 · 04:00

新工具增强音频深度伪造检测和分析能力

研究人员开发了新的工具和方法来对抗音频深度伪造。AUDDT是一个开源工具包，旨在评估深度伪造检测器在各种音频数据集和操纵类型上的泛化能力。FoeGlass提供了一种自动化的红队测试方法，通过生成对抗性音频样本，利用LLM来发现音频深度伪造检测器的盲点。此外，SARA是一个诊断框架，用于评估用于深度伪造检测的音频语言模型的推理和连贯性，即使在对抗性攻击下也是如此。
TOOL · CL_53672 · May 27 · 04:00

新的PitchBench基准揭示音频语言模型音高听觉不可靠

研究人员开发了PitchBench，这是一个旨在系统衡量音频语言模型（ALMs）音高感知能力的新评估套件。该套件包含28个实验，测试在不同条件下的绝对和相对音高识别能力，例如不同的乐器、噪声水平和音乐纹理。使用PitchBench进行的初步评估显示，当前的ALMs表现出不可靠的音高听觉，在各项任务中的表现都很差且不一致，表明这些模型尚未实现稳定的音高感知。
TOOL · CL_37352 · May 18 · 16:31

研究人员警告：AI语音助手易受隐藏音频命令攻击

研究人员发现，AI语音助手和音频语言模型存在重大的安全漏洞。这些日益成为日常接口的系统，可以通过难以察觉的音频线索进行操纵。这使得隐藏命令可以在用户不知情的情况下执行，对隐私和安全构成严重风险。
TOOL · CL_30734 · May 13 · 15:09

新架构提升音频语言模型对显著声音的注意力

研究人员开发了NAACA，这是一种旨在改进音频语言模型处理长音频录音方式的新型架构。NAACA采用无训练方法，并结合振荡工作记忆（OWM）来过滤显著的听觉事件，减少不必要的处理。该方法在暴力检测等任务上显著提高了性能，在XD-Violence数据集上的平均精度从53.50%提高到70.60%。
RESEARCH · CL_30795 · May 13 · 04:36

新AI方法可自动编码治疗会话

研究人员开发了一种新方法，利用音频语言模型（ALMs）自动编码动机性访谈（MI）会话。该方法分析口语和声学线索，整合来自多条推理路径的预测以提高准确性。多模态自洽性技术实现了46.40%的宏观F1分数，优于基线方法，并表明结合语言和非语言信号可提高MI编码的可靠性。

ZEBRA 框架增强音频语言模型泛化能力

新框架增强临床音频诊断的上下文学习能力

新框架通过可训练的音频提示增强音频语言模型

音频语言模型通过声学线索改进语音情感识别

音频语言模型用冲突文本覆盖清晰音频

新工具增强音频深度伪造检测和分析能力

新的PitchBench基准揭示音频语言模型音高听觉不可靠

研究人员警告：AI语音助手易受隐藏音频命令攻击

新架构提升音频语言模型对显著声音的注意力

新AI方法可自动编码治疗会话