English(EN) Hand Trajectory Fusion for Egocentric Natural Language Query Grounding

新方法融合动手轨迹以实现自我中心的视频查询定位

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员开发了一种新的方法，通过整合动手轨迹数据，在自我中心的视频中定位自然语言查询。该方法使用交叉注意力和自适应门控，将手的运动学特征与预训练的视频-文本特征融合。该方法显示出显著的改进，特别是对于涉及手-物体交互以及数量/状态变化的查询，证明了手部运动在时间定位方面超越视觉外观的价值。 AI

影响通过整合细粒度的手部运动来增强视频理解，可能改进第一人称视频数据的搜索和分析。

排序理由该集群包含一篇研究论文，详细介绍了自我中心自然语言查询定位的一种新颖方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Enmin Zhong, Carlos R. del-Blanco, Fernando Jaureguizar, Narciso Garc\'ia · 2026-06-03 04:00

用于以自我为中心的自然语言查询的轨迹融合

arXiv:2606.02962v1 Announce Type: cross Abstract: Egocentric Natural Language Query (NLQ) grounding asks a model to localize, in a long first-person video, the temporal interval that answers a free-form text query. Existing methods fuse video appearance with the query but ignore …