PulseAugur
实时 21:38:33
English(EN) SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models

SceneGraphVLM 高效地从视频生成动态场景图

研究人员开发了 SceneGraphVLM,一种使用紧凑型视觉语言模型从视频生成动态场景图的新颖方法。该方法将图序列化为高效的 TOON 格式,并采用两阶段训练过程,包括具有专门奖励的强化学习,以提高精度并减少不相关对象。SceneGraphVLM 提供了出色的质量-速度权衡,通过 vLLM 加速实现近乎实时性能,并为视频分析提供轻量级的时间上下文。 AI

影响 引入了一种更有效的方法来从视频中进行结构化视觉感知,有可能改进依赖于理解场景上下文的下游 AI 任务。

排序理由 该集群包含一篇详细介绍从视频生成场景图新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SceneGraphVLM 高效地从视频生成动态场景图

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Dmitry Yudin ·

    SceneGraphVLM:使用视觉语言模型从视频生成动态场景图

    Scene graph generation provides a compact structured representation for visual perception, but accurate and fast graph prediction from images and videos remains challenging. Recent VLM-based methods can generate scene graphs end-to-end as structured text, yet often produce long o…