PulseAugur
实时 08:11:43
English(EN) VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

VideoNet 数据集在领域特定动作识别方面对视觉-语言模型提出挑战

研究人员推出了 VideoNet,这是一个旨在改进视频中领域特定动作识别的大规模数据集。该基准涵盖了 37 个领域中的 1000 种动作,突显了 Gemini 3.1 ProQwen3-VL-8B 等视觉-语言模型 (VLM) 在这些任务上的准确性和少样本学习能力方面的局限性。为了解决这个问题,创建了一个包含近 50 万个视频问答对的新训练数据集,使得经过微调的 Molmo2-4B 模型在 VideoNet 上的表现优于现有的开源 8B 模型。 AI

影响 重振动作识别研究,可能提高 VLM 在专业视频理解任务中的能力。

排序理由 该集群包含一篇介绍动作识别数据集和基准的新学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

VideoNet 数据集在领域特定动作识别方面对视觉-语言模型提出挑战

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Tanush Yadav, Mohammadreza Salehi, Jae Sung Park, Vivek Ramanujan, Hannaneh Hajishirzi, Yejin Choi, Ali Farhadi, Rohun Tripathi, Ranjay Krishna ·

    VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

    arXiv:2605.02834v1 Announce Type: new Abstract: Videos are unique in their ability to capture actions which transcend multiple frames. Accordingly, for many years action recognition was the quintessential task for video understanding. Unfortunately, due to a lack of sufficiently …

  2. arXiv cs.CV TIER_1 English(EN) · Ranjay Krishna ·

    VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

    Videos are unique in their ability to capture actions which transcend multiple frames. Accordingly, for many years action recognition was the quintessential task for video understanding. Unfortunately, due to a lack of sufficiently diverse and challenging data, modern vision-lang…