English(EN) ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

ClassEval-Pro基准测试揭示LLM在类级别代码生成方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 17:38

研究人员推出了ClassEval-Pro，这是一个旨在评估大型语言模型类级别代码生成能力的新基准测试。该基准测试包含11个领域的300个任务，通过一个自动化的流程创建，该流程集成了复杂性增强和来自2025年1月之后更新的GitHub存储库的真实代码。对五个前沿LLM的初步评估显示，即使是表现最好的模型，其Pass@1也仅达到45.6%，这凸显了在组合代码创建方面存在的重大挑战，其中逻辑和依赖性错误是主要问题。 AI

影响新的基准测试突出了LLM在类级别代码生成方面的局限性，重点关注逻辑和依赖性错误。

排序理由引入了一个用于评估LLM代码生成能力的新基准测试。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-29 17:38

ClassEval-Pro：用于类级别代码生成的跨域基准测试

LLMs have achieved strong results on both function-level code synthesis and repository-level code modification, yet a capability that falls between these two extremes -- compositional code creation, i.e., building a complete, internally structured class from a specification -- re…

报道来源 [1]

ClassEval-Pro：用于类级别代码生成的跨域基准测试

相关实体

相关话题