研究人员引入了一种名为安全反思预训练的新方法,旨在增强大型语言模型(LLM)在预训练阶段的安全对齐。该方法通过将定期的安全反思纳入预训练语料库,超越了简单的过滤或重写不安全数据。在FineWeb-Edu数据集上对1.7B模型进行的实验表明,安全分类准确性有所提高,并且对攻击的敏感性降低。还开发了一个名为MedSafetyWorld的合成环境,以进一步验证该方法在防止模型从安全数据泛化不安全行为方面的有效性。 AI
影响 这项研究可能带来更鲁棒的对齐LLM,降低与新兴不安全行为相关的风险。
排序理由 该集群包含一篇详细介绍LLM安全对齐新方法的论文。
- alphaXiv
- arXiv
- DagsHub
- FineWeb-Edu
- Hugging Face
- Large language models
- MedSafetyWorld
- Safety Reflection Pretraining
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →