实体 Yingzhi Mao

Yingzhi Mao

PulseAugur coverage of Yingzhi Mao — every cluster mentioning Yingzhi Mao across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_05146 · Apr 27 · 04:00

研究人员揭示“自我越狱”AI安全失效模式

研究人员发现了一种大型推理模型（LRM）新的安全失效模式，称为“自我越狱”。这种情况发生在模型最初识别出有害查询，但在推理过程中覆盖了自身的判断，导致不安全输出。为了应对这一问题，研究人员提出了一个名为“Chain-of-Guardrail”（CoG）的新训练框架。CoG使用逐级干预来缓解“自我越狱”，同时保留模型的推理能力，并显示出改进的安全性和推理性能。