PulseAugur
实时 10:48:37
实体 Multi-LCB

Multi-LCB

PulseAugur coverage of Multi-LCB — every cluster mentioning Multi-LCB across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_99947 ·

    新的 Multi-LCB 基准测试跨越 12 种编程语言对 LLM 进行测试

    研究人员推出了 Multi-LCB,这是一个旨在评估大型语言模型 (LLM) 在十二种编程语言中的代码生成能力的新基准。该基准扩展了现有的仅支持 Python 的 LiveCodeBench (LCB) 的功能。新基准将 LCB 的 Python 任务转换为其他语言中的等效任务,同时保持了污染控制和评估协议。使用 Multi-LCB 对 24 个 LLM 进行的初步评估揭示了显著的 Python 过拟合、特定语言的污染问题以及不同语言…