English(EN) MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

新基准MM-Conv旨在实现3D对话中的AI基础

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员推出了MM-Conv，这是一个旨在改进AI系统在对话中理解和定位动态3D环境中语言的新基准。该基准利用了以自我为中心的VR交互数据，捕获了6.7小时的同步语音、运动、注视和3D场景几何信息。提出了一种新颖的两阶段基础流程，该流程首先解决对话歧义，然后执行视觉定位，从而带来显著的性能提升。 AI

影响增强了AI在复杂、动态的3D环境中理解和响应对话引用的能力。

排序理由该集群包含一篇介绍AI研究新数据集和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Anna Deichler, Jim O'Regan, Fethiye Irmak Dogan, Lubos Marcinek, Anna Klezovich, Iolanda Leite, Jonas Beskow · 2026-05-22 04:00

MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

arXiv:2605.21796v1 Announce Type: cross Abstract: Grounding language in the physical world requires AI systems to interpret references that emerge dynamically during conversation. While current vision-language models (VLMs) excel at static image tasks, they struggle to resolve am…

报道来源 [1]

MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

相关实体

相关话题