PulseAugur
实时 12:53:02

新型Omni-Embed-Audio模型利用LLM增强音频-文本检索

研究人员开发了Omni-Embed-Audio (OEA),一种新的面向检索的编码器,它利用多模态大型语言模型来改进音频-文本检索。与依赖字幕式查询的先前系统不同,OEA旨在处理更自然的搜索行为,包括问题、命令和否定查询。实验表明,OEA在文本到音频检索方面的性能与现有的最先进模型相当,而在文本到文本检索和区分听起来相似的音频片段的能力方面,其性能显著优于它们。 AI

影响 引入了一种更强大的音频-文本检索方法,有可能改进多模态AI应用中的搜索功能。

排序理由 这是一篇描述新模型和评估方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · HaeJun Yoo, Yongseop Shin, Insung Lee, Myoung-Wan Koo, Du-Seong Chang ·

    Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

    arXiv:2604.18360v2 Announce Type: replace-cross Abstract: Audio-text retrieval systems based on Contrastive Language-Audio Pretraining (CLAP) achieve strong performance on traditional benchmarks; however, these benchmarks rely on caption-style queries that differ substantially fr…