English(EN) Only three AI models finished above starting capital in a 500-day startup survival test

AI模型在新的CEO-Bench测试中难以运行模拟初创公司

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-28 10:16

普林斯顿大学的研究人员开发了CEO-Bench，这是一个旨在测试AI模型商业头脑的模拟器。在这个为期500天的模拟初创公司环境中，大多数AI代理未能保持偿付能力，一个基本的基于规则的启发式方法表现优于几乎所有AI模型。只有三款AI模型在测试结束时比开始时拥有更多的资本。 AI

影响凸显了AI代理在商业管理等复杂现实世界决策场景中的当前局限性。

排序理由详细介绍AI代理能力新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

The Decoder TIER_1 English(EN) · Maximilian Schreiner · 2026-06-28 10:16

Only three AI models finished above starting capital in a 500-day startup survival test

<p><img alt="" class="attachment-full size-full wp-post-image" height="768" src="https://the-decoder.com/wp-content/uploads/2026/06/CEO-Bench-title.png" style="height: auto; margin-bottom: 10px;" width="1376" /></p> <p> Researchers at Princeton University built CEO-Bench, a test …