一个名为 FML-Bench 的新基准测试表明,近期在自动化机器学习研究(尤其是在代码编辑代理等领域)的进展,并非主要归功于算法的进步。在控制了模型能力和搜索预算等因素后,像 AIDE 这样的旧算法与现代系统表现相当。这表明观察到的进展很大程度上可归因于基础模型的改进和问题定义的转变,而非根本性的算法效率提升。 AI
影响 挑战了机器学习领域算法快速进展的叙事,表明需要重新评估性能提升的驱动因素。
排序理由 该集群讨论了一个新的基准测试及其关于机器学习研究中算法进展的发现,这属于研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →