一个名为 TriViewBench 的新基准已被开发出来,用于评估多模态大语言模型(MLLMs)的结构推理能力。该基准包含具有不同物体数量和遮挡的合成 3D 场景,结果显示所有 18 个经过评估的 MLLMs 都表现出一致的性能层级,其中局部决策任务最容易,全局恢复任务最具挑战性。随着复杂度的增加,性能显著下降,物体计数和全局恢复任务的性能下降幅度很大。错误分析表明,当前的 MLLMs 在跨视图空间表示方面存在困难,而思维链提示(Chain-of-Thought prompting)的改进效果甚微,这表明存在根本性的可扩展性限制。 AI
影响 揭示了 MLLMs 在扩展结构推理能力方面的根本性局限性,突出了未来研究和开发的关键领域。
排序理由 该集群描述了一个新的基准和对现有模型的评估,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →