研究人员开发了一个名为 EDITH 的新框架,该框架集成了口头和非口头人类信号,以实现更自然的人机交互。该系统捕获智能眼镜中的第一人称视频、注视和语音,并将其与语言指令一起使用以推断人类意图。EDITH 采用分层策略来分解任务,并使用视觉流中的关键帧来锚定任务,与仅使用语言命令相比,这大大减少了用户的工作量。 AI
影响 通过整合视觉线索增强机器人对人类意图的理解,可能导致更直观、更高效的人机协作。
排序理由 关于人机交互新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →