研究人员开发了一种名为漂移增强评分(DAS)的新方法,以提高零样本音频-语言分类模型在声学噪声下的鲁棒性。该技术为余弦评分增加了一个小额奖励,当嘈杂音频嵌入与噪声条件下的文本提示对齐时,会奖励相应的类别。DAS 在 UrbanSound8K 数据集上将准确率提高了高达 5.75 个百分点,在 FSD50K 数据集上将 mAP 提高了高达 1.74 个百分点,在各种嘈杂条件下均优于其他方法。 AI
影响 增强了音频-语言模型在现实嘈杂环境中的可靠性,可能改进语音助手和内容审核等应用。
排序理由 该集群包含一篇详细介绍音频-语言分类新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →