English(EN) WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

新基准测试编码代理的浏览器游戏创建能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

研究人员推出了 WebGameBench，这是一个旨在评估编码代理根据规范创建功能性浏览器游戏能力的新基准。该基准侧重于交付的应用，而不仅仅是源代码，评估代理是否能将冻结的规范转化为可玩的游戏。对 12 个代理和 111 个任务进行的初步测试表明，尽管最好的代理实现了 76.9% 的可用率，但只有 20.2% 被评为优秀，这凸显了基本功能与完全满足需求之间的差距。 AI

影响为编码代理建立了新的评估标准，推动它们超越代码生成，实现功能性应用交付。

排序理由该集群描述了一个用于评估人工智能系统的新学术基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Wenyu Zhang, Guoliang You, Tianlun, Haotian Zhao, Tianshu Zhu, Haoran Wang, Xiaoxuan Tang, Mingyang Dai, Jingnan Gu, Daxiang Dong, Jianmin Wu · 2026-05-25 04:00

WebGameBench：通过浏览器原生游戏对编码代理进行需求到应用的评估

arXiv:2605.17637v2 Announce Type: replace Abstract: Coding agents are increasingly used as application builders, yet many evaluations still focus on source code, repository-level tests, or intermediate traces rather than the delivered application. We introduce WebGameBench, a req…

报道来源 [1]

WebGameBench：通过浏览器原生游戏对编码代理进行需求到应用的评估

相关实体

相关话题