(CA) GPT-5.1-Codex-Max Evaluation Results

METR 发现 GPT-5.1-Codex-Max 对人工智能研发自动化构成低风险

作者 PulseAugur 编辑部 · [1 个来源] · 2025-11-19 08:00

METR 评估了 OpenAI 的 GPT-5.1-Codex-Max，认为它是比先前模型低风险的渐进式改进。评估侧重于人工智能研发自动化和恶意复制风险，结论是当前趋势表明这些威胁在未来六个月内不太可能显著出现。然而，METR 承认不可预见的突破或计算规模的增加可能会影响这些预测。 AI

影响表明当前人工智能发展趋势在短期内对人工智能研发自动化和恶意复制构成低风险。

排序理由该报告是对特定模型安全影响的评估，而非新模型发布或重大政策转变。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

METR (Model Evaluation & Threat Research) TIER_1 (CA) · 2025-11-19 08:00

GPT-5.1-Codex-Max 评估结果

<style> .caption { text-align: center; color: #555; font-size: 0.9em; font-style: italic; margin-top: -0.5em; margin-bottom: 1.5em; } </style> <p><strong>Note on independence:</strong> This evaluation was conducted under a standard NDA. Due to the se…