实体 AlgoBench

AlgoBench

PulseAugur coverage of AlgoBench — every cluster mentioning AlgoBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_121474 · Jul 2 · 04:00

新基准 AlgoBench 测试 LLM 的算法推理能力，超越记忆

研究人员开发了 AlgoBench，一个旨在评估代码生成模型算法推理能力的新框架。与可能因训练数据暴露而受损的传统基准测试不同，AlgoBench 通过转换现有的竞争性编程问题来自动创建新颖的算法问题。这种方法确保了参考算法在新变体上失败，迫使模型展示真正的适应性而非记忆。该框架还引入了面向复杂性的指标，不仅评估功能正确性，还评估渐近效率，揭示了许多模型在算法适应性和高效解决方案方面存在困难。