研究人员推出了 Multi-LCB,这是一个旨在评估大型语言模型 (LLM) 在十二种编程语言中的代码生成能力的新基准。该基准扩展了现有的仅支持 Python 的 LiveCodeBench (LCB) 的功能。新基准将 LCB 的 Python 任务转换为其他语言中的等效任务,同时保持了污染控制和评估协议。使用 Multi-LCB 对 24 个 LLM 进行的初步评估揭示了显著的 Python 过拟合、特定语言的污染问题以及不同语言之间显著的性能差异,突显了当前 LLM 多语言编码能力的严峻差距。 AI
影响 突显了 LLM 多语言编码能力的严峻差距,以及模型超越 Python 进行泛化的必要性。
排序理由 该集群描述了发表在 arXiv 上的一个新基准论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →