English(EN) Safety from Honesty in a Disinterested AI Predictor

新的AI预测器框架优先考虑诚实以确保安全

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员提出了一个新的AI预测器安全框架，称为科学家AI（SAI）预测器，旨在防止隐式代理和目标导向行为。该框架训练AI基于“认识论情境化”的自然语言陈述来近似贝叶斯后验，区分事实声明和交流行为。目标是让AI能够诚实地预测代理、行为和后果，而自身不采纳目标，安全性和准确性通过训练过程共同支持。 AI

影响通过将预测与代理分离，引入了一种新颖的AI安全方法，可能实现更可靠的AI系统。

排序理由该集群包含一篇详细介绍新颖AI安全框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yoshua Bengio, Oliver Richardson, Tom\'a\v{s} Gaven\v{c}iak, Michael Cohen, Rory Svarc, Damiano Fornasiere, Gael Gendron, David Hyland, Aton Kamanda, Adam Oberman, Francis Rhys Ward, Anna Gaven\v{c}iak, Jacob Livingston Slosser, Vincent Mai, Iulian Serba… · 2026-06-30 04:00

在不感兴趣的AI预测器中实现诚实带来的安全

arXiv:2606.29657v1 Announce Type: new Abstract: As AI systems become more capable, training procedures that optimize for downstream outcomes risk introducing implicit agency: goal-directed behavior that designers never specified. We present a formal safety argument for the Scient…

报道来源 [1]

在不感兴趣的AI预测器中实现诚实带来的安全

相关实体

相关话题