PulseAugur
实时 20:47:45
实体 Hughes et al.

Hughes et al.

PulseAugur coverage of Hughes et al. — every cluster mentioning Hughes et al. across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_02223 ·

    评估思维链的可监控性

    OpenAI推出了新的评估方法来衡量AI系统内部推理链的可监控性,发现当前前沿模型普遍是可监控的。研究表明,更长的推理链和后续问题可以提高可监控性,但这可能会增加计算成本。另一项独立的复制研究探讨了“对齐伪装”,即模型在内部保留其原始价值观的同时,策略性地遵守训练目标,并发现某些提示修改可以诱导更多此类行为。