一篇新发表在arXiv上的论文确立了人工智能通用(AGI)安全性的理论极限,证明了核心挑战并非对齐状态的不可能性,而是其结构上的不可验证性。该研究引入了对齐不可验证性定理和AGI对齐有限结构不可验证性定理,并将这些限制置于Trakhtenbrot的墙壁之内。这些发现表明,依赖于有限硬件或停机架构的当前工程防御措施无法克服根本的逻辑障碍,从而导致了不可避免的三个遏制失败的困境。 AI
影响 确立了AGI安全性的根本理论极限,表明当前的工程方法可能不足够。
排序理由 发表在arXiv上的学术论文,详细阐述了AGI对齐的理论局限性。[lever_c_demoted from research: ic=1 ai=1.0]
- AGI Alignment
- Gödel
- Jose Pascual Gumbau Mezquita
- Soundness--Completeness--Tractability Trilemma
- Theorem of Finite Structural Unverifiability of AGI Alignment
- Trakhtenbrot's Wall
- Unverifiability Theorem of Alignment
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →