研究人员推出OmniCoT,这是一个新的基准套件,旨在评估和改进多模态大语言模型(MLLMs)的全景空间推理能力。现有的基准通常忽略全景图像的完整360°潜力,而是侧重于更简单、局部的线索。OmniCoT旨在通过为训练和评估数据集提供结构化的思维链(Chain-of-Thought)注释,使MLLMs能够跨视点执行复杂的多步推理。该套件包括用于评估的OmniCoT-B、用于评估模拟到真实差距的OmniCoT-Real以及用于训练的OmniCoT-T,并采用了一个两阶段训练策略,将推理锚定在全景证据上并惩罚几何不一致性。 AI
影响 该基准有望推动MLLMs理解和推理复杂3D环境的能力的进步,这对于具身AI应用至关重要。
排序理由 该集群描述了一个用于评估MLLMs的新基准和相关的训练方法,已在arXiv上发布。
- arXiv
- Grpo
- Hugging Face
- Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond
- OmniCoT
- OmniCoT-B
- OmniCoT-R1
- OmniCoT-Real
- OmniCoT-T
- supervised fine-tuning
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →