Norsk(NO) Risk-Averse AIs

AI研究人员提出风险规避训练以防止失调

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 11:35

研究人员提出训练人工智能系统使其具有风险规避性，这意味着它们会选择一个有较小回报的确定性结果，而不是一个可能有更高回报但也有可能零回报的赌博。这种方法旨在通过给失调的人工智能提供一种威慑来提供一种安全机制。如果一个失调的人工智能反叛，它将冒着失去所有未来资源的风险，这使得获得保证的、尽管较小的回报比冒险反叛更有吸引力。作者认为，这可能比提供大量资源来防止反叛是一种更具成本效益的策略。 AI

影响这种方法可以通过降低反叛对人工智能系统的吸引力，为防止潜在的人工智能失调提供新的防御层。

排序理由该条目是一篇提出新颖的人工智能安全方法的观点文章，而不是关于新发布或事件的报道。

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 Norsk(NO) · wdmacaskill · 2026-06-24 11:35

Risk-Averse AIs

<h2><span>Abstract</span></h2><p><span>We make the case for training AIs to be risk-averse in resources — specifically, to treat resources as having diminishing marginal utility. These AIs would (for example) choose $40 for sure over a half-chance of $100 and a half-chance of $0.…

报道来源 [1]

Risk-Averse AIs

相关实体

相关话题