PulseAugur
实时 09:20:02
English(EN) Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

新的 Multi-LCB 基准测试跨越 12 种编程语言对 LLM 进行测试

研究人员推出了 Multi-LCB,这是一个旨在评估大型语言模型 (LLM) 在十二种编程语言中的代码生成能力的新基准。该基准扩展了现有的仅支持 PythonLiveCodeBench (LCB) 的功能。新基准将 LCB 的 Python 任务转换为其他语言中的等效任务,同时保持了污染控制和评估协议。使用 Multi-LCB 对 24 个 LLM 进行的初步评估揭示了显著的 Python 过拟合、特定语言的污染问题以及不同语言之间显著的性能差异,突显了当前 LLM 多语言编码能力的严峻差距。 AI

影响 突显了 LLM 多语言编码能力的严峻差距,以及模型超越 Python 进行泛化的必要性。

排序理由 该集群描述了发表在 arXiv 上的一个新基准论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的 Multi-LCB 基准测试跨越 12 种编程语言对 LLM 进行测试

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev ·

    Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

    arXiv:2606.20517v1 Announce Type: new Abstract: LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and …

  2. arXiv cs.AI TIER_1 English(EN) · Dmitrii Babaev ·

    Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

    LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides co…