PulseAugur
实时 07:23:07
English(EN) Hand Trajectory Fusion for Egocentric Natural Language Query Grounding

新方法融合动手轨迹以实现自我中心的视频查询定位

研究人员开发了一种新的方法,通过整合动手轨迹数据,在自我中心的视频中定位自然语言查询。该方法使用交叉注意力和自适应门控,将手的运动学特征与预训练的视频-文本特征融合。该方法显示出显著的改进,特别是对于涉及手-物体交互以及数量/状态变化的查询,证明了手部运动在时间定位方面超越视觉外观的价值。 AI

影响 通过整合细粒度的手部运动来增强视频理解,可能改进第一人称视频数据的搜索和分析。

排序理由 该集群包含一篇研究论文,详细介绍了自我中心自然语言查询定位的一种新颖方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Enmin Zhong, Carlos R. del-Blanco, Fernando Jaureguizar, Narciso Garc\'ia ·

    用于以自我为中心的自然语言查询的轨迹融合

    arXiv:2606.02962v1 Announce Type: cross Abstract: Egocentric Natural Language Query (NLQ) grounding asks a model to localize, in a long first-person video, the temporal interval that answers a free-form text query. Existing methods fuse video appearance with the query but ignore …