PulseAugur
实时 23:37:24
实体 Opper

Opper

PulseAugur coverage of Opper — every cluster mentioning Opper across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_17669 ·

    Opper发现,大多数AI模型未能通过简单的“洗车”推理测试

    一项名为“洗车测试”的新基准显示,许多领先的AI模型在基本推理方面存在困难。当被问及是步行还是开车50米去洗车时,53个测试模型中有42个错误地建议步行。即使是Claude Sonnet 4.5和GPT-5.2等顶级模型,在单次运行中也未能通过测试。一致性测试显示进一步的性能下降,只有五个模型在十次尝试中都能可靠地正确回答,这凸显了实际推理能力方面存在的重大差距。