研究人员推出了JAMER,这是一个新的数据集和基准测试,旨在评估AI模型在专业游戏引擎中的项目级代码生成能力。JAMER利用游戏开发大赛的数据,专注于Godot引擎,包含8,133个已验证的项目。该基准测试使用编译通过率、结构完整性得分和行为对齐得分等指标,评估了驱动式生成和代码补全等任务。初步评估显示,随着项目复杂度的增加,AI模型的性能显著下降,突显了架构设计是关键瓶颈。 AI
影响 凸显了当前AI代码生成在复杂项目级任务(尤其是在游戏开发领域)中的局限性。
排序理由 该集群描述了一个用于AI代码生成的新数据集和基准测试,该测试发表在arXiv论文中。
- arXiv
- Behavioral Alignment Score
- code agents
- Godot
- JamBench
- Jamer
- Structural Completeness Score
- Task2a
- game jam
- Hugging Face
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →