一项名为 Collider-Bench 的新基准测试已被开发出来,用于评估大型语言模型代理重现研究论文中的科学分析的能力,特别关注大型强子对撞机 (LHC) 数据。目前,大型语言模型代理在这一复杂的科学推理任务上的表现不如人类物理学家,表明仍有很大的改进空间。另外,Cerebras 已提交 IPO 申请,旨在用其晶圆级芯片挑战 Nvidia 在人工智能硬件领域的统治地位。此外,Anthropic 正在修改其 Claude Pro 订阅,为 Agent SDK 的使用引入每月 20 美元的信用额度,从而将程序化访问与标准的交互式使用区分开来。 AI
影响 新的基准测试突显了大型语言模型在复杂科学推理方面的局限性,可能指导未来的研究和开发。
排序理由 该集群包含一个用于评估大型语言模型代理在科学推理任务上表现的新基准测试。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →