研究人员推出了SG-Ego,一个扩展Ego4D的新数据集,包含时空场景图,以更好地理解第一人称视频中的人类活动。他们还开发了GLEN,一个基于图的模型,用于处理这些场景图序列以进行动作对齐和时间演化建模。提出的活动驱动图编辑预测(A-GEF)任务将场景动态构建为以动作为条件的结构化变换,从而能够对场景变化进行显式推理。 AI
影响 增强了具身AI和视频理解任务的结构化推理能力。
排序理由 该集群描述了一篇介绍新数据集、模型和视频理解任务的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →