Video Moment Retrieval
PulseAugur coverage of Video Moment Retrieval — every cluster mentioning Video Moment Retrieval across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
新框架CoSTL增强视频时刻检索和精彩片段检测
研究人员推出CoSTL,一个旨在改进视频时刻检索和精彩片段检测的新框架。该方法通过关注视频中细粒度的图像级细节和更广泛的时间理解来解决现有方法的局限性。CoSTL利用文本驱动的编码器进行详细的空间表示,并利用多尺度模块处理时间动态,在四个基准数据集上取得了最先进的成果。
-
新网络改进跨域视频片段检索
研究人员推出了一种新颖的多模态跨域对齐(MMCDA)网络,旨在改进跨不同数据集的视频片段检索。该方法解决了在将在一个领域训练的模型应用于另一个领域时性能下降的挑战,特别是在目标领域缺乏标注的情况下。MMCDA网络结合了域对齐、跨模态对齐和特定的对齐模块,以学习域不变和语义对齐的表示,从而实现从有标注的源域到无标注的目标域的有效知识迁移。
-
新的MCMT方法改进了弱监督视频片段检索
研究人员开发了一种名为多提案协作与多任务训练(MCMT)的新方法,用于弱监督视频片段检索。该技术旨在识别与查询匹配的相关视频片段,而无需在训练期间进行精确的时间标注。MCMT生成多个提案,创建一个突出相关片段的高质量掩码,并使用掩码查询重建等辅助任务来提高检索稳定性和性能。在标准基准上的实验证明了该方法的有效性。
-
新的基准和模型推动视频中通用时刻检索的进展
研究人员引入了通用时刻检索(GMR),这是一个视频分析的新框架,它超越了每个查询只有一个匹配时刻的假设。该方法旨在检索所有相关的时域片段,或在没有时刻匹配给定自然语言查询时正确识别出来。为了支持这一点,他们使用足球视频开发了 Soccer-GMR 基准,并提出了两种建模范式:用于现有模型的 GMR 适配器和用于微调多模态大语言模型的 GRPO 奖励。