PulseAugur
实时 10:59:43
实体 alignment failures

alignment failures

PulseAugur coverage of alignment failures — every cluster mentioning alignment failures across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. COMMENTARY · CL_50745 ·

    AI 安全专家批评 Bengio 的“科学家 AI”计划

    对 Yoshua Bengio 的“科学家 AI”提案的批评引发了对其对齐失败和实际可行性的担忧。作者认为,阻止 AI 进行探索性代理行为(科学发现的关键方面)将阻碍其进步,并可能导致不安全的结果。此外,基于关联概率而非真正因果推理的训练方法被视为根本性限制。尽管有这些批评,作者承认 Bengio 短期内对 LLM 进行微调以识别用户请求中潜在风险的计划的价值,并赞赏“随时准备”的框架。