English(EN) Adaptive Perturbation Selection for Contrastive Audio Decoding

新方法通过自适应变换提高音频语言模型的准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-02 04:00

研究人员开发了一种名为自适应扰动选择（APS）的新方法，以提高大型音频语言模型（LALMs）的准确性。现有的对比解码技术通常使用掩码或噪声等粗略方法，但APS探索了更广泛的音频变换范围。通过测试各种时间域、频谱域、频率域和幅度域的扰动，研究发现最优变换是任务特定的。例如，音频反转将时间顺序准确性从74.7%提高到81.4%。一个在模型状态上训练的轻量级选择器通过动态路由负分支进一步提高了性能，在存在任务上额外增加了4.3%的增益。 AI

影响增强了音频语言模型的可靠性，可能减少幻觉并提高特定音频处理任务的性能。

排序理由该集群包含一篇详细介绍改进AI模型性能的新方法的学术论文。[lever_c_research降级：ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aaron Isidore Grace, Zhouyuan Huo, Weiran Wang · 2026-07-02 04:00

对比音频解码的自适应扰动选择

arXiv:2607.00247v1 Announce Type: cross Abstract: Large audio-language models (LALMs) frequently hallucinate by overriding acoustic evidence with language priors. While contrastive decoding (CD) offers training-free mitigation, existing methods rely on blunt perturbations like ma…

报道来源 [1]

对比音频解码的自适应扰动选择

相关实体

相关话题