研究人员推出了ResearchClawBench,这是一个旨在评估AI代理端到端自主研究能力的基准测试。该基准测试包含10个科学领域的40项任务,每项任务都基于真实的已发表论文。包括代理和大型语言模型在内的当前AI系统在可靠地重新发现科学发现方面表现出显著的局限性,最强的系统得分远低于完全重新发现的水平。 AI
影响 突显了AI在进行自主科学研究方面的现有局限性,表明需要在推理和证据综合方面进一步发展。
排序理由 该集群描述了一个用于评估AI能力的新的学术基准测试。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →