English(EN) Brick-Composer: Using MLLMs for Assembly with Diverse Bricks

多模态大语言模型通过新框架学习积木组装

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-06 04:00

研究人员开发了一个名为Brick-Composer的新框架，使多模态大语言模型（MLLMs）能够执行积木组装任务。目前最先进的MLLMs在精确的积木选择和姿态估计方面存在困难，组装成功率不到1%。Brick-Composer利用人类设计演示、世界反馈和合成经验来显著提高这些能力，将步骤级组装成功率提高到约15%，并使Qwen-3-8B模型能够完成高达42%的组装步骤。 AI

影响使多模态大语言模型能够获得物理建造技能，可能为现实世界物体组装带来更强大的AI代理。

排序理由学术论文，介绍了一个用于多模态大语言模型在特定任务中能力的新框架和基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiateng Liu, Bingxuan Li, Zhenhailong Wang, Rushi Wang, Kaiwen Hong, Cheng Qian, Jiayu Liu, Denghui Zhang, Katherine Driggs-Campbell, Manling Li, Heng Ji · 2026-06-06 04:00

Brick-Composer：使用MLLM进行多样化积木组装

arXiv:2606.05445v1 Announce Type: new Abstract: We dream of AI agents that can read arbitrary designs and construct real-world objects from reusable building blocks. As a first step toward this vision, we study whether multimodal large language models (MLLMs) possess the visual g…

报道来源 [1]

Brick-Composer：使用MLLM进行多样化积木组装

相关实体

相关话题