PulseAugur
实时 10:22:40
English(EN) Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

新方法提高噪声下音频-语言分类的准确性

研究人员开发了一种名为漂移增强评分(DAS)的新方法,以提高零样本音频-语言分类模型在声学噪声下的鲁棒性。该技术为余弦评分增加了一个小额奖励,当嘈杂音频嵌入与噪声条件下的文本提示对齐时,会奖励相应的类别。DAS 在 UrbanSound8K 数据集上将准确率提高了高达 5.75 个百分点,在 FSD50K 数据集上将 mAP 提高了高达 1.74 个百分点,在各种嘈杂条件下均优于其他方法。 AI

影响 增强了音频-语言模型在现实嘈杂环境中的可靠性,可能改进语音助手和内容审核等应用。

排序理由 该集群包含一篇详细介绍音频-语言分类新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Tu Vo, Sheir Zaheer, Chan Y. Park ·

    Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

    arXiv:2606.04844v1 Announce Type: cross Abstract: Contrastive audio-language models such as CLAP enable zero-shot audio classification: a sound is labelled by matching its embedding to text prompt embeddings, with no labelled audio. This matching breaks down under acoustic noise,…