新网络通过知识迁移实现无监督视频-文本匹配

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一种新颖的跨模态知识迁移网络，用于无监督时间句子定位。该方法旨在通过利用来自更简单、易于获得的跨模态任务的知识，来克服对昂贵、配对的视频-查询注释的依赖。该网络将来自图像-名词任务的实体感知外观知识和来自视频-动词事件的事件感知动作表示进行迁移，并将其改编为无监督使用，以在没有直接训练的情况下关联视频和查询以检索相关片段。 AI

影响提出了一种降低视频-文本检索任务注释成本的方法，可能使人工智能在视频分析中的应用更广泛。

排序理由这是一篇详细介绍时间句子定位新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xiang Fang, Daizong Liu, Wanlong Fang, Pan Zhou, Yu Cheng, Keke Tang, Kai Zou · 2026-06-01 04:00

标注并非你所需：无监督时序句子定位的跨模态知识迁移网络

arXiv:2605.30742v1 Announce Type: new Abstract: This paper addresses the task of temporal sentence grounding (TSG). Although many respectable works have made decent achievements in this important topic, they severely rely on massive expensive video-query paired annotations, which…

报道来源 [1]

标注并非你所需：无监督时序句子定位的跨模态知识迁移网络

相关实体

相关话题