PulseAugur
实时 10:28:54
English(EN) OmniCoT: A Benchmark for Global and Multi-Step Panoramic Reasoning

新的OmniCoT基准旨在测试多模态大语言模型的全景推理能力

研究人员推出OmniCoT,这是一个新的基准套件,旨在评估和改进多模态大语言模型(MLLMs)的全景空间推理能力。现有的基准通常忽略全景图像的完整360°潜力,而是侧重于更简单、局部的线索。OmniCoT旨在通过为训练和评估数据集提供结构化的思维链(Chain-of-Thought)注释,使MLLMs能够跨视点执行复杂的多步推理。该套件包括用于评估的OmniCoT-B、用于评估模拟到真实差距的OmniCoT-Real以及用于训练的OmniCoT-T,并采用了一个两阶段训练策略,将推理锚定在全景证据上并惩罚几何不一致性。 AI

影响 该基准有望推动MLLMs理解和推理复杂3D环境的能力的进步,这对于具身AI应用至关重要。

排序理由 该集群描述了一个用于评估MLLMs的新基准和相关的训练方法,已在arXiv上发布。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的OmniCoT基准旨在测试多模态大语言模型的全景推理能力

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Haocong He, Chenfei Liao, Zichen Wen, Zihao Dongfang, Xu Zheng, Bin Ren, Chang Su, Zixin Zhang, Harold Haodong Chen, Hongfei Zhang, Weijia Li, Kailun Yang, Conghui He, Xuming Hu, Nicu Sebe, Linfeng Zhang ·

    OmniCoT:一个用于全局和多步全景推理的基准

    arXiv:2606.30378v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) have demonstrated promising spatial reasoning capabilities, while these abilities remain underexplored in the emerging visual modality of panoramic imagery. The full 360{\deg}$\times$180{\deg…

  2. arXiv cs.CV TIER_1 English(EN) · Linfeng Zhang ·

    OmniCoT:一个用于全局和多步全景推理的基准

    Multimodal Large Language Models (MLLMs) have demonstrated promising spatial reasoning capabilities, while these abilities remain underexplored in the emerging visual modality of panoramic imagery. The full 360°$\times$180° field of view of panoramas essentially supports complex …