METR的研究人员进行了一项桌面演习,模拟使用具有200小时时间跨度的AI代理,预测了大约12-18个月后可能具备的能力。该演习旨在了解新兴的工作流程和潜在的生产力提升。参与者发现,AI代理可以显著加快任务完成速度,实现快速原型设计和迭代,但也突出了优先级排序和组织方面的瓶颈。 AI
排序理由 该集群描述了一项模拟未来AI能力的桌面演习,而非当前发布或基准测试。
在 METR (Model Evaluation & Threat Research) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →