新方法压缩语言模型的音频令牌

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种名为局部时序双向合并（LTBM）的新方法，用于压缩音频语言模型中的音频令牌。这种无需训练的方法在时序窗口内合并相似的附近音频令牌，旨在降低推理成本和内存使用量。实验表明，这种局部感知合并对于音频字幕任务特别有益，尤其是在更高的压缩率下，而全局匹配在音频理解任务中表现更好。 AI

影响这项压缩技术可以使音频语言模型在资源受限的环境中更有效地部署。

排序理由该集群包含一篇学术论文，详细介绍了音频令牌压缩的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Jiale Luo, Xiaoyu Liang, Haoji Hu · 2026-05-26 04:00

局部性对无训练音频语言模型中的音频令牌压缩至关重要

arXiv:2605.25179v1 Announce Type: new Abstract: Audio-language models (ALMs) are increasingly used for audio captioning, question answering, and open-ended audio understanding, but their inference cost remains high when audio inputs are represented as long prefix-token sequences.…