新型Omni-Embed-Audio模型利用LLM增强音频-文本检索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了Omni-Embed-Audio (OEA)，一种新的面向检索的编码器，它利用多模态大型语言模型来改进音频-文本检索。与依赖字幕式查询的先前系统不同，OEA旨在处理更自然的搜索行为，包括问题、命令和否定查询。实验表明，OEA在文本到音频检索方面的性能与现有的最先进模型相当，而在文本到文本检索和区分听起来相似的音频片段的能力方面，其性能显著优于它们。 AI

影响引入了一种更强大的音频-文本检索方法，有可能改进多模态AI应用中的搜索功能。

排序理由这是一篇描述新模型和评估方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · HaeJun Yoo, Yongseop Shin, Insung Lee, Myoung-Wan Koo, Du-Seong Chang · 2026-06-02 04:00

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

arXiv:2604.18360v2 Announce Type: replace-cross Abstract: Audio-text retrieval systems based on Contrastive Language-Audio Pretraining (CLAP) achieve strong performance on traditional benchmarks; however, these benchmarks rely on caption-style queries that differ substantially fr…

报道来源 [1]

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

相关实体

相关话题