PulseAugur
实时 14:16:37
实体 IKEA-Bench

IKEA-Bench

PulseAugur coverage of IKEA-Bench — every cluster mentioning IKEA-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56375 ·

    新基准测试视觉-语言模型在宜家组装说明上的表现

    研究人员开发了IKEA-Bench,一个旨在评估视觉-语言模型(VLMs)在理解和对齐来自图示的组装说明与真实视频信息方面性能的新基准。该基准包含针对29种宜家家具产品的6种任务类型共1623个问题,研究表明,虽然文本说明可以被恢复,但它们可能会阻碍图示与视频之间的对齐。研究还发现,VLM架构家族比参数数量更能预测对齐准确性,并且视频理解仍然是一个重要的瓶颈。