OpenAI 的 GPT-5.6 系统卡表明 Sol 模型在 OpenAI Mythos 框架中概述的高风险阈值以下的表现。然而,需要注意的是,评估标准是由 OpenAI 自己制定的。Sol 表现的真正衡量标准将来自于对这些基准的独立红队测试。 AI
影响 表明 Sol 模型感知到的安全风险可能降低,但独立验证尚待进行。
排序理由 前沿实验室模型发布,附带系统卡。[lever_c 从 frontier_release 降级:ic=1 ai=1.0]
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →