研究人员正在探索一种新颖的 AI 安全方法,通过在模型的嵌入空间中引入几何对齐,而不是仅仅依赖事后行为控制。这种方法在 DRM Transformer 中得到演示,它使用一个弯曲的流形,其中遍历语义路径的“成本”或“难度”被编码到几何本身中。通过结合语义锚点和测地线注意力,模型可以内在化地更加关注高风险或不确定性区域,从而可能促进人与 AI 之间的协商,而不是强制执行纯粹的服从角色。 AI
影响 提出 AI 对齐研究的根本性转变,从行为控制转向模型的内在几何特性。
排序理由 该集群描述了一篇提出新的 AI 对齐技术方法的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →