English(EN) Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

新的 Multi-LCB 基准测试跨越 12 种编程语言对 LLM 进行测试

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-18 17:35

研究人员推出了 Multi-LCB，这是一个旨在评估大型语言模型 (LLM) 在十二种编程语言中的代码生成能力的新基准。该基准扩展了现有的仅支持 Python 的 LiveCodeBench (LCB) 的功能。新基准将 LCB 的 Python 任务转换为其他语言中的等效任务，同时保持了污染控制和评估协议。使用 Multi-LCB 对 24 个 LLM 进行的初步评估揭示了显著的 Python 过拟合、特定语言的污染问题以及不同语言之间显著的性能差异，突显了当前 LLM 多语言编码能力的严峻差距。 AI

影响突显了 LLM 多语言编码能力的严峻差距，以及模型超越 Python 进行泛化的必要性。

排序理由该集群描述了发表在 arXiv 上的一个新基准论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev · 2026-06-19 04:00

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

arXiv:2606.20517v1 Announce Type: new Abstract: LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and …
arXiv cs.AI TIER_1 English(EN) · Dmitrii Babaev · 2026-06-18 17:35

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides co…

报道来源 [2]

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

相关实体

相关话题