PulseAugur
实时 20:38:21
English(EN) STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

STAR框架通过LLM引导的时间学习提升少样本动作识别能力

研究人员开发了一个名为STAR(语义-时间自适应表示学习)的新框架,以改进视频中的少样本动作识别。该方法通过集成一个用于细粒度一致性的时间语义注意力机制和一个利用Mamba块的语义时间原型精炼器,来解决语义-时间失配和时间动态建模不足的问题。该框架还利用大型语言模型的时间依赖类别描述符提供长程语义指导,在多个基准测试中取得了显著的提升。 AI

影响 增强视频理解能力,可能改进监控、机器人和内容分析等应用。

排序理由 详细介绍少样本动作识别新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

STAR框架通过LLM引导的时间学习提升少样本动作识别能力

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Shengjie Zhao ·

    STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

    Few-shot action recognition (FSAR) requires models to generalize to novel action categories from only a handful of annotated samples. Despite progress with vision-language models, existing approaches still suffer from semantic-temporal misalignment, where static textual prompts f…