研究人员开发了Omni-Embed-Audio (OEA),一种新的面向检索的编码器,它利用多模态大型语言模型来改进音频-文本检索。与依赖字幕式查询的先前系统不同,OEA旨在处理更自然的搜索行为,包括问题、命令和否定查询。实验表明,OEA在文本到音频检索方面的性能与现有的最先进模型相当,而在文本到文本检索和区分听起来相似的音频片段的能力方面,其性能显著优于它们。 AI
影响 引入了一种更强大的音频-文本检索方法,有可能改进多模态AI应用中的搜索功能。
排序理由 这是一篇描述新模型和评估方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →