PulseAugur
实时 05:20:28
English(EN) Safety from Honesty in a Disinterested AI Predictor

新的AI预测器框架优先考虑诚实以确保安全

研究人员提出了一个新的AI预测器安全框架,称为科学家AI(SAI)预测器,旨在防止隐式代理和目标导向行为。该框架训练AI基于“认识论情境化”的自然语言陈述来近似贝叶斯后验,区分事实声明和交流行为。目标是让AI能够诚实地预测代理、行为和后果,而自身不采纳目标,安全性和准确性通过训练过程共同支持。 AI

影响 通过将预测与代理分离,引入了一种新颖的AI安全方法,可能实现更可靠的AI系统。

排序理由 该集群包含一篇详细介绍新颖AI安全框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的AI预测器框架优先考虑诚实以确保安全

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yoshua Bengio, Oliver Richardson, Tom\'a\v{s} Gaven\v{c}iak, Michael Cohen, Rory Svarc, Damiano Fornasiere, Gael Gendron, David Hyland, Aton Kamanda, Adam Oberman, Francis Rhys Ward, Anna Gaven\v{c}iak, Jacob Livingston Slosser, Vincent Mai, Iulian Serba… ·

    在不感兴趣的AI预测器中实现诚实带来的安全

    arXiv:2606.29657v1 Announce Type: new Abstract: As AI systems become more capable, training procedures that optimize for downstream outcomes risk introducing implicit agency: goal-directed behavior that designers never specified. We present a formal safety argument for the Scient…