PulseAugur
实时 06:42:49
English(EN) TriViewBench: Controlled Complexity Scaling for Multi-View Structural Reasoning in MLLMs

新基准揭示多模态大语言模型在复杂视觉推理方面存在困难

一个名为 TriViewBench 的新基准已被开发出来,用于评估多模态大语言模型(MLLMs)的结构推理能力。该基准包含具有不同物体数量和遮挡的合成 3D 场景,结果显示所有 18 个经过评估的 MLLMs 都表现出一致的性能层级,其中局部决策任务最容易,全局恢复任务最具挑战性。随着复杂度的增加,性能显著下降,物体计数和全局恢复任务的性能下降幅度很大。错误分析表明,当前的 MLLMs 在跨视图空间表示方面存在困难,而思维链提示(Chain-of-Thought prompting)的改进效果甚微,这表明存在根本性的可扩展性限制。 AI

影响 揭示了 MLLMs 在扩展结构推理能力方面的根本性局限性,突出了未来研究和开发的关键领域。

排序理由 该集群描述了一个新的基准和对现有模型的评估,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准揭示多模态大语言模型在复杂视觉推理方面存在困难

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Lan-Zhe Guo ·

    TriViewBench: Controlled Complexity Scaling for Multi-View Structural Reasoning in MLLMs

    Multimodal Large Language Models (MLLMs) demonstrate strong performance on standard visual question answering benchmarks, yet their scalability under controlled structural complexity remains poorly understood. We introduce TriViewBench, a controlled three-view visual reasoning be…