研究人员推出了一种名为Agentic Reasoning for Tree Search (ARTS) 的新颖科学发现方法,该方法利用推理语言模型来导航假设和实验空间。与混淆假设优劣与实验执行质量的传统方法不同,ARTS诊断失败,以区分错误的实现和有缺陷的假设。该系统表现出显著的改进,在MLGym和MLEBench的22项任务上,其性能比领先算法高出15.3%以上。此外,ARTS表明,具有测试时训练的Qwen3-4B模型可以以显著更低的推理成本,实现与Gemini 3 Pro和GPT o3-reasoning等闭源前沿模型相当的性能。 AI
影响 这种方法可以通过提高假设生成和测试的效率和有效性,显著加速AI驱动的科学研究。
排序理由 该集群描述了一篇关于用于科学发现的新型AI方法的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Agentic Reasoning for Tree Search
- arXiv
- Gemini 3 Pro
- GPT o3-reasoning
- Hugging Face
- MLEBench
- MLGym
- Qwen3-4B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →