一位研究人员测试了 Opus 4.6 重建简化版视频游戏《Slay the Spire》和《Balatro》的命令行版本的能力。尽管预料到会失败,但该 AI 成功生成了大部分可玩但有 bug 的游戏实现。该代理获得了大上下文窗口和互联网访问权限来完成任务,该任务涉及核心游戏机制而不是全部功能。 AI
排序理由 该条目描述了关于 AI 模型能力的一次实验和观察,类似于一篇研究论文。
在 METR (Model Evaluation & Threat Research) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →