PulseAugur
实时 17:54:17
实体 WTP-Bench

WTP-Bench

PulseAugur coverage of WTP-Bench — every cluster mentioning WTP-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15790 ·

    BareBones基准测试揭示视觉语言模型存在纹理偏差断崖

    研究人员推出了BareBones,一个旨在测试视觉语言模型(VLMs)几何理解能力的新基准测试。该基准测试使用像素级轮廓来评估VLMs是否能独立于视觉纹理或上下文信息来理解几何结构。对包括GPT-4.1和Gemini在内的26个领先VLMs的评估显示,在移除视觉纹理后,性能出现显著下降,这种现象被称为“纹理偏差断崖”。