English(EN) Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

新基准测试视觉-语言模型在宜家组装说明上的表现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员开发了IKEA-Bench，一个旨在评估视觉-语言模型（VLMs）在理解和对齐来自图示的组装说明与真实视频信息方面性能的新基准。该基准包含针对29种宜家家具产品的6种任务类型共1623个问题，研究表明，虽然文本说明可以被恢复，但它们可能会阻碍图示与视频之间的对齐。研究还发现，VLM架构家族比参数数量更能预测对齐准确性，并且视频理解仍然是一个重要的瓶颈。 AI

影响该基准测试有望推动AI在解读视觉指令方面的能力提升，可能有助于复杂的组装任务和混合现实应用。

排序理由该集群描述了一篇介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zhuchenyang Liu, Yao Zhang, Yu Xiao · 2026-05-28 04:00

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

arXiv:2604.00913v2 Announce Type: replace-cross Abstract: 2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems mu…

报道来源 [1]

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

相关实体

相关话题