对齐研究中心 (ARC) 与 AIcrowd 合作启动了一项挑战赛,旨在改进随机 MLP 的估算算法。该竞赛包括一个热身赛和未来几轮比赛,奖金池至少为 10 万美元,目标是开发理解 AI 系统内部工作原理的方法。参赛者将负责创建估算 MLP 输出的算法,重点是开发可适应模型训练的白盒方法。 AI
影响 推动对 AI 内部机制的理解研究,可能改进先进 AI 系统的安全性和控制机制。
排序理由 该集群宣布了一项专注于改进 AI 对齐估算算法的研究挑战,其中包括奖金池。
- AIcrowd
- Alignment Research Center
- ARC White-Box Estimation Challenge
- Dipam Chakraborty
- Harshita Khera
- Paul Rosu
- random MLPs
- Sneha Nanavati
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →