研究人员推出 EggHand,一个用于从视频进行自我中心手部姿态预测的新型多模态基础模型。该模型整合了语义推理和动态运动建模,利用视觉-语言-动作解码器和自我中心视频-文本编码器,在无需外部跟踪的情况下理解意图和上下文。同时,EgoEMG 数据集和基准测试已发布,通过结合肌电图 (EMG) 和自我中心视觉数据,推动多模态手部姿态估计。EgoEMG 包含同步的双侧 EMG、IMU 和各种视频流,为开发和评估融合模型提供了全面的资源。 AI
影响 自我中心手部姿态预测和多模态融合的这些进展可能在增强现实/虚拟现实和机器人领域实现更直观的人机交互。
排序理由 该集群包含两篇研究论文,介绍了用于手部姿态估计的新模型和数据集。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →