研究人员推出了MM-Conv,这是一个旨在改进AI系统在对话中理解和定位动态3D环境中语言的新基准。该基准利用了以自我为中心的VR交互数据,捕获了6.7小时的同步语音、运动、注视和3D场景几何信息。提出了一种新颖的两阶段基础流程,该流程首先解决对话歧义,然后执行视觉定位,从而带来显著的性能提升。 AI
影响 增强了AI在复杂、动态的3D环境中理解和响应对话引用的能力。
排序理由 该集群包含一篇介绍AI研究新数据集和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →