研究人员引入了通用时刻检索(GMR),这是一个视频分析的新框架,它超越了每个查询只有一个匹配时刻的假设。该方法旨在检索所有相关的时域片段,或在没有时刻匹配给定自然语言查询时正确识别出来。为了支持这一点,他们使用足球视频开发了 Soccer-GMR 基准,并提出了两种建模范式:用于现有模型的 GMR 适配器和用于微调多模态大语言模型的 GRPO 奖励。 AI
影响 为视频语言理解建立了一个更现实的基准,有可能改进 AI 系统处理和检索视频内容信息的方式。
排序理由 这是一篇介绍视频检索任务新基准和模型的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →