新的AI模型推动视频-文本时序定位

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-26 04:00

研究人员开发了新的时序句子定位（TSG）方法，该任务涉及根据文本查询在视频中定位特定时刻。其中一种方法是三分支压缩域时空融合（TCSF）框架，它直接处理压缩格式的视频，从I帧、运动矢量和残差数据中提取特征，以实现高效准确的定位。另一种方法是分层局部-全局Transformer（HLGT），通过建模局部上下文和全局相关性来解决视频帧和查询词的粒度问题。还引入了一种新颖的多对TSG设置，它联合训练多个视频-查询对，利用知识迁移网络和原型对齐策略来提高理解和泛化能力。 AI

影响时序句子定位的这些进展可能带来更高效、更准确的视频搜索和分析工具。

排序理由该集群包含多篇学术论文，详细介绍了用于时序句子定位的新AI模型和方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.AI TIER_1 English(EN) · Xiang Fang, Daizong Liu, Pan Zhou, Guoshun Nan · 2026-05-26 04:00

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos

arXiv:2303.07863v3 Announce Type: replace-cross Abstract: Given an untrimmed video, temporal sentence grounding (TSG) aims to locate a target moment semantically according to a sentence query. Although previous respectable works have made decent success, they only focus on high-l…
arXiv cs.CL TIER_1 English(EN) · Xiang Fang, Daizong Liu, Pan Zhou, Zichuan Xu, Ruixuan Li · 2026-05-26 04:00

Hierarchical Local-Global Transformer for Temporal Sentence Grounding

arXiv:2208.14882v2 Announce Type: replace-cross Abstract: This paper studies the multimedia problem of temporal sentence grounding (TSG), which aims to accurately determine the specific video segment in an untrimmed video according to a given sentence query. Traditional TSG metho…
arXiv cs.CV TIER_1 English(EN) · Xiang Fang, Wanlong Fang, Changshuo Wang, Daizong Liu, Keke Tang, Jianfeng Dong, Pan Zhou, Beibei Li · 2026-05-26 04:00

Multi-Pair Temporal Sentence Grounding via Multi-Thread Knowledge Transfer Network

arXiv:2412.15678v3 Announce Type: replace Abstract: Given some video-query pairs with untrimmed videos and sentence queries, temporal sentence grounding (TSG) aims to locate query-relevant segments in these videos. Although previous respectable TSG methods have achieved remarkabl…

报道来源 [3]

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos

Hierarchical Local-Global Transformer for Temporal Sentence Grounding

Multi-Pair Temporal Sentence Grounding via Multi-Thread Knowledge Transfer Network

相关实体

相关话题