研究人员推出了CodegenBench,这是一个新的基准套件,用于评估大型语言模型(LLM)在不同硬件架构上生成高效并行代码的能力。该基准包括x86_64、Sunway和Kunpeng平台的标准BLAS例程和专用内核。初步评估表明,虽然LLM在常见架构上表现良好,但它们在缺乏广泛公开文档和训练数据的特定领域架构上遇到困难,这表明其跨平台泛化能力存在局限性。 AI
影响 突出了LLM在专用硬件代码生成方面的局限性,表明需要改进跨平台泛化能力。
排序理由 该集群包含一篇介绍用于评估LLM代码生成能力的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →