PulseAugur
实时 22:25:49
实体 UOJ-Bench

UOJ-Bench

PulseAugur coverage of UOJ-Bench — every cluster mentioning UOJ-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_78804 ·

    新的 UOJ-Bench 评估 LLM 的代码修复和错误检测能力

    一个名为 UOJ-Bench 的新基准已被开发出来,用于评估大型语言模型 (LLM) 在代码生成、黑客攻击和修复任务方面的能力,超越了简单的解决问题。初步测试表明,即使是顶级模型在识别人类编写代码中的错误方面也存在困难,在一次性评估中的成功率低于 50%。虽然测试时扩展可以显著提高性能,但会产生巨大的计算成本,限制了实际部署。然而,最好的模型仍然可以在一小部分满分提交中识别出错误,这表明 LLM 有潜力为现有的评判系统提供补充见解。