研究人员开发了一种新的方法,通过整合动手轨迹数据,在自我中心的视频中定位自然语言查询。该方法使用交叉注意力和自适应门控,将手的运动学特征与预训练的视频-文本特征融合。该方法显示出显著的改进,特别是对于涉及手-物体交互以及数量/状态变化的查询,证明了手部运动在时间定位方面超越视觉外观的价值。 AI
影响 通过整合细粒度的手部运动来增强视频理解,可能改进第一人称视频数据的搜索和分析。
排序理由 该集群包含一篇研究论文,详细介绍了自我中心自然语言查询定位的一种新颖方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →