PulseAugur
实时 09:43:09
English(EN) ConTrans: Learning Text-enhanced Local-global Temporal Representations for Zero-shot Temporal Action Localization

ConTrans 模型推动零样本视频动作定位

研究人员开发了一个名为 ConTrans 的新模型,以改进视频中的零样本时序动作定位。该模型集成了卷积层和 Transformer 自注意力机制,以更好地捕捉局部帧相关性和长程全局上下文。ConTrans 在 ActivityNet-1.3THUMOS14 数据集上树立了新的基准,在检测未见过动作方面优于现有方法。 AI

影响 为零样本时序动作定位树立了新的基准,可能提高视频分析能力。

排序理由 这是一篇详细介绍新模型及其在学术基准上性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Kanchan Keisham, Thenukan Pathmanathan, Thangarajah Akilan ·

    ConTrans:学习文本增强的局部-全局时序表示用于零样本时序动作定位

    arXiv:2605.30689v1 Announce Type: cross Abstract: Zero-shot Temporal Action Localization (ZS-TAL) aims to detect and locate previously unseen actions in untrimmed videos. However, existing approaches primarily focus on modeling long-range contextual information, often neglecting …