English(EN) ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

ALM2Vec框架使用大型音频语言模型进行通用音频检索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员推出了一种新颖的框架ALM2Vec，旨在通过利用大型音频语言模型（LALMs）来创建通用音频嵌入。与以往专注于音频-字幕匹配的方法不同，ALM2Vec旨在支持更广泛的检索目标和可控行为。该框架转移了LALMs的能力，实现了面向指令的检索，用于音频问答和面向方面检索等任务。实验表明，ALM2Vec在标准基准测试中表现具有竞争力，同时展示了在不同领域和用户意图中统一音频嵌入的潜力。 AI

影响该框架可以通过利用大型语言模型实现更通用和可控的音频检索系统。

排序理由该集群包含一篇详细介绍音频嵌入新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee · 2026-07-01 04:00

ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

arXiv:2606.30682v1 Announce Type: cross Abstract: Recent advances in language--audio retrieval have been largely driven by contrastive dual-encoder architectures that align audio and text in a shared embedding space. While effective, existing retrieval embeddings are primarily op…

报道来源 [1]

ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

相关实体

相关话题