研究人员推出了 VideoNet,这是一个旨在改进视频中领域特定动作识别的大规模数据集。该基准涵盖了 37 个领域中的 1000 种动作,突显了 Gemini 3.1 Pro 和 Qwen3-VL-8B 等视觉-语言模型 (VLM) 在这些任务上的准确性和少样本学习能力方面的局限性。为了解决这个问题,创建了一个包含近 50 万个视频问答对的新训练数据集,使得经过微调的 Molmo2-4B 模型在 VideoNet 上的表现优于现有的开源 8B 模型。 AI
影响 重振动作识别研究,可能提高 VLM 在专业视频理解任务中的能力。
排序理由 该集群包含一篇介绍动作识别数据集和基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →