PulseAugur
实时 20:56:48
实体 Staged-Competence

Staged-Competence

PulseAugur coverage of Staged-Competence — every cluster mentioning Staged-Competence across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_53684 ·

    新框架利用课程学习提升大语言模型安全对齐能力

    研究人员开发了一个名为Staged-Competence的新框架,利用直接偏好优化(DPO)来改进大语言模型的安全对齐。这种课程学习方法按难度组织偏好数据,并在训练过程中逐步更新参考模型。实验表明,Staged-Competence在保持通用能力的同时,将有害响应率降低了16%,越狱成功率降低了20%。