研究人员开发了IMAGINE,一个用于组合视频检索(CVR)和组合图像检索(CIR)的新型网络。该系统通过整合隐式语义信息来解决现有方法的局限性,这些信息通常通过视觉相关线索而非显式表示来传达。IMAGINE利用动态多模态原型来捕捉这些共享的潜在概念,自适应地调节视觉特征以更有效地指导检索过程。该方法在CVR和CIR任务的三个主要基准测试中均取得了最先进的性能。 AI
影响 通过整合隐式语义理解来增强视频和图像检索,有望提高多模态AI系统中的搜索准确性。
排序理由 该集群包含一篇详细介绍视频和图像检索新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →