English(EN) ConTrans: Learning Text-enhanced Local-global Temporal Representations for Zero-shot Temporal Action Localization

ConTrans 模型推动零样本视频动作定位

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一个名为 ConTrans 的新模型，以改进视频中的零样本时序动作定位。该模型集成了卷积层和 Transformer 自注意力机制，以更好地捕捉局部帧相关性和长程全局上下文。ConTrans 在 ActivityNet-1.3 和 THUMOS14 数据集上树立了新的基准，在检测未见过动作方面优于现有方法。 AI

影响为零样本时序动作定位树立了新的基准，可能提高视频分析能力。

排序理由这是一篇详细介绍新模型及其在学术基准上性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Kanchan Keisham, Thenukan Pathmanathan, Thangarajah Akilan · 2026-06-01 04:00

ConTrans：学习文本增强的局部-全局时序表示用于零样本时序动作定位

arXiv:2605.30689v1 Announce Type: cross Abstract: Zero-shot Temporal Action Localization (ZS-TAL) aims to detect and locate previously unseen actions in untrimmed videos. However, existing approaches primarily focus on modeling long-range contextual information, often neglecting …

报道来源 [1]

ConTrans：学习文本增强的局部-全局时序表示用于零样本时序动作定位

相关实体

相关话题