English(EN) SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models

SceneGraphVLM 高效地从视频生成动态场景图

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-13 15:27

研究人员开发了 SceneGraphVLM，一种使用紧凑型视觉语言模型从视频生成动态场景图的新颖方法。该方法将图序列化为高效的 TOON 格式，并采用两阶段训练过程，包括具有专门奖励的强化学习，以提高精度并减少不相关对象。SceneGraphVLM 提供了出色的质量-速度权衡，通过 vLLM 加速实现近乎实时性能，并为视频分析提供轻量级的时间上下文。 AI

影响引入了一种更有效的方法来从视频中进行结构化视觉感知，有可能改进依赖于理解场景上下文的下游 AI 任务。

排序理由该集群包含一篇详细介绍从视频生成场景图新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Dmitry Yudin · 2026-05-13 15:27

SceneGraphVLM：使用视觉语言模型从视频生成动态场景图

Scene graph generation provides a compact structured representation for visual perception, but accurate and fast graph prediction from images and videos remains challenging. Recent VLM-based methods can generate scene graphs end-to-end as structured text, yet often produce long o…

报道来源 [1]

SceneGraphVLM：使用视觉语言模型从视频生成动态场景图

相关话题