PulseAugur
实时 02:01:44
实体 MLE-Bench

MLE-Bench

PulseAugur coverage of MLE-Bench — every cluster mentioning MLE-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_64023 ·

    FML-Bench 基准测试质疑机器学习研究中的算法进展

    一个名为 FML-Bench 的新基准测试表明,近期在自动化机器学习研究(尤其是在代码编辑代理等领域)的进展,并非主要归功于算法的进步。在控制了模型能力和搜索预算等因素后,像 AIDE 这样的旧算法与现代系统表现相当。这表明观察到的进展很大程度上可归因于基础模型的改进和问题定义的转变,而非根本性的算法效率提升。