实体
YouCook2
YouCook2
PulseAugur coverage of YouCook2 — every cluster mentioning YouCook2 across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
ClipSum框架使用CLIP改进指令视频摘要
研究人员开发了ClipSum,一个利用CLIP的视觉语言特征来摘要指令视频的新框架。该方法使用CLIP的语义对齐视觉特征,CLIP在海量图文对数据集上进行训练,以弥合视觉理解与语言生成之间的差距。ClipSum在YouCook2数据集上的表现优于传统方法,在维度显著降低的情况下取得了更高的ROUGE-1分数,表明语义对齐比原始特征容量更重要。
-
将视频推理建立在物理信号之上
研究人员开发了一个新的基准来评估物理视频理解能力,超越了简单的事件识别,以评估模型在时间和空间上精确定位事件的能力。该基准包含来自四个来源的视频片段,涵盖六个物理领域,并在不同的提示家族和输入条件下测试模型。研究结果表明,虽然基于物理的推理是最强的,但空间定位仍然是一个重大挑战,这表明未来的基准应包括物理上可定位、提示感知和扰动感知的诊断。