OpenAI 发布了一项关于新方法的 ist 研究,该方法旨在训练 AI 模型在各种情况下并在对抗压力下保持有益的特质。这种方法称为有益强化学习 (Beneficial RL),在现实对话中使用强化学习来灌输真诚、谦逊和公平等品质。早期测试表明,通过此方法训练的模型在各种领域(即使是那些未明确包含在训练数据中的领域)都显示出更好的对齐和安全性,并能更好地抵御有害提示。 AI
影响 这项研究可能带来更可靠、更值得信赖的 AI 系统,使其能够在新颖和具有挑战性的场景中保持安全和有益的行为。
排序理由 OpenAI 关于新 AI 训练方法的 ist 研究论文。
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →