研究人员推出了 WebGameBench,这是一个旨在评估编码代理根据规范创建功能性浏览器游戏能力的新基准。该基准侧重于交付的应用,而不仅仅是源代码,评估代理是否能将冻结的规范转化为可玩的游戏。对 12 个代理和 111 个任务进行的初步测试表明,尽管最好的代理实现了 76.9% 的可用率,但只有 20.2% 被评为优秀,这凸显了基本功能与完全满足需求之间的差距。 AI
影响 为编码代理建立了新的评估标准,推动它们超越代码生成,实现功能性应用交付。
排序理由 该集群描述了一个用于评估人工智能系统的新学术基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →