PulseAugur
实时 18:10:00
English(EN) MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

新基准MM-Conv旨在实现3D对话中的AI基础

研究人员推出了MM-Conv,这是一个旨在改进AI系统在对话中理解和定位动态3D环境中语言的新基准。该基准利用了以自我为中心的VR交互数据,捕获了6.7小时的同步语音、运动、注视和3D场景几何信息。提出了一种新颖的两阶段基础流程,该流程首先解决对话歧义,然后执行视觉定位,从而带来显著的性能提升。 AI

影响 增强了AI在复杂、动态的3D环境中理解和响应对话引用的能力。

排序理由 该集群包含一篇介绍AI研究新数据集和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Anna Deichler, Jim O'Regan, Fethiye Irmak Dogan, Lubos Marcinek, Anna Klezovich, Iolanda Leite, Jonas Beskow ·

    MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

    arXiv:2605.21796v1 Announce Type: cross Abstract: Grounding language in the physical world requires AI systems to interpret references that emerge dynamically during conversation. While current vision-language models (VLMs) excel at static image tasks, they struggle to resolve am…