English(EN) How we monitor internal coding agents for misalignment

OpenAI 使用 GPT-4.5 Turbo 监控内部编码代理是否存在不一致

作者 PulseAugur 编辑部 · [1 个来源] · 2026-03-19 10:00

OpenAI 开发了一个内部监控系统来管理其编码代理，利用 GPT-4.5 Turbo 检测和标记潜在的不一致行为。该系统分析代理交互和思维链，警报偏离用户意图或违反安全策略的行为。目标是在日益自主的 AI 系统影响外部用户之前，主动识别和减轻相关风险。 AI

排序理由 OpenAI 描述了一个新的 AI 代理内部监控系统，详细介绍了其方法和初步发现，这属于研究和安全实践范畴。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

OpenAI News TIER_1 English(EN) · 2026-03-19 10:00

我们如何监控内部编码代理的失调

How OpenAI uses chain-of-thought monitoring to study misalignment in internal coding agents—analyzing real-world deployments to detect risks and strengthen AI safety safeguards.