实体 UOJ-Bench

UOJ-Bench

PulseAugur coverage of UOJ-Bench — every cluster mentioning UOJ-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_78804 · Jun 8 · 20:37

新的 UOJ-Bench 评估 LLM 的代码修复和错误检测能力

一个名为 UOJ-Bench 的新基准已被开发出来，用于评估大型语言模型 (LLM) 在代码生成、黑客攻击和修复任务方面的能力，超越了简单的解决问题。初步测试表明，即使是顶级模型在识别人类编写代码中的错误方面也存在困难，在一次性评估中的成功率低于 50%。虽然测试时扩展可以显著提高性能，但会产生巨大的计算成本，限制了实际部署。然而，最好的模型仍然可以在一小部分满分提交中识别出错误，这表明 LLM 有潜力为现有的评判系统提供补充见解。