研究人员开发了一个名为STAR(语义-时间自适应表示学习)的新框架,以改进视频中的少样本动作识别。该方法通过集成一个用于细粒度一致性的时间语义注意力机制和一个利用Mamba块的语义时间原型精炼器,来解决语义-时间失配和时间动态建模不足的问题。该框架还利用大型语言模型的时间依赖类别描述符提供长程语义指导,在多个基准测试中取得了显著的提升。 AI
影响 增强视频理解能力,可能改进监控、机器人和内容分析等应用。
排序理由 详细介绍少样本动作识别新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →