研究人员开发了一个名为Brick-Composer的新框架,使多模态大语言模型(MLLMs)能够执行积木组装任务。目前最先进的MLLMs在精确的积木选择和姿态估计方面存在困难,组装成功率不到1%。Brick-Composer利用人类设计演示、世界反馈和合成经验来显著提高这些能力,将步骤级组装成功率提高到约15%,并使Qwen-3-8B模型能够完成高达42%的组装步骤。 AI
影响 使多模态大语言模型能够获得物理建造技能,可能为现实世界物体组装带来更强大的AI代理。
排序理由 学术论文,介绍了一个用于多模态大语言模型在特定任务中能力的新框架和基准。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →