PulseAugur
实时 12:43:51
实体 AlgoBench

AlgoBench

PulseAugur coverage of AlgoBench — every cluster mentioning AlgoBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_121474 ·

    新基准 AlgoBench 测试 LLM 的算法推理能力,超越记忆

    研究人员开发了 AlgoBench,一个旨在评估代码生成模型算法推理能力的新框架。与可能因训练数据暴露而受损的传统基准测试不同,AlgoBench 通过转换现有的竞争性编程问题来自动创建新颖的算法问题。这种方法确保了参考算法在新变体上失败,迫使模型展示真正的适应性而非记忆。该框架还引入了面向复杂性的指标,不仅评估功能正确性,还评估渐近效率,揭示了许多模型在算法适应性和高效解决方案方面存在困难。