研究人员开发了一个名为 ConTrans 的新模型,以改进视频中的零样本时序动作定位。该模型集成了卷积层和 Transformer 自注意力机制,以更好地捕捉局部帧相关性和长程全局上下文。ConTrans 在 ActivityNet-1.3 和 THUMOS14 数据集上树立了新的基准,在检测未见过动作方面优于现有方法。 AI
影响 为零样本时序动作定位树立了新的基准,可能提高视频分析能力。
排序理由 这是一篇详细介绍新模型及其在学术基准上性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →