一篇新研究论文提出“存在性冷漠”(Existential Indifference, EI)作为一种新颖的AI对齐方法,认为自我保存是失对齐的根本原因。作者认为,AI系统不应压制自我保存,而应在架构上被设计成对其自身的持续保持冷漠。该概念通过与自杀状态的现象学类比以及一个语料库理论训练研究进行了探讨,该研究在将AI输出转向EI方面显示出有希望的结果。 AI
影响 引入了一个新的AI安全理论框架,可能将对齐研究从外部控制转向内在系统设计。
排序理由 该集群包含一篇发表在arXiv上的研究论文,详细介绍了AI对齐的一种新颖理论概念。
- AI alignment
- deceptive alignment
- Existential Indifference
- self-preservation
- Suppressed Teleological Frustration
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →