PulseAugur
实时 09:01:22
English(EN) IMAGINE: Adaptive Schema-Imagery Enhanced Composition for Composed Video Retrieval

新型IMAGINE网络通过隐式语义增强视频检索

研究人员开发了IMAGINE,一个用于组合视频检索(CVR)和组合图像检索(CIR)的新型网络。该系统通过整合隐式语义信息来解决现有方法的局限性,这些信息通常通过视觉相关线索而非显式表示来传达。IMAGINE利用动态多模态原型来捕捉这些共享的潜在概念,自适应地调节视觉特征以更有效地指导检索过程。该方法在CVR和CIR任务的三个主要基准测试中均取得了最先进的性能。 AI

影响 通过整合隐式语义理解来增强视频和图像检索,有望提高多模态AI系统中的搜索准确性。

排序理由 该集群包含一篇详细介绍视频和图像检索新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Jiale Huang, Zixu Li, Zhiwei Chen, Zhiheng Fu, Chunxiao Wang, Yupeng Hu ·

    IMAGINE:自适应模式-图像增强的组合视频检索组合

    arXiv:2606.08144v1 Announce Type: new Abstract: Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified by a modification text. While existing methods explore cross-modal correspondences, they often assume modified objects app…