English(EN) Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

新的预训练方法通过集成反思增强了LLM的安全性

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-17 15:11

研究人员引入了一种名为安全反思预训练的新方法，旨在增强大型语言模型（LLM）在预训练阶段的安全对齐。该方法通过将定期的安全反思纳入预训练语料库，超越了简单的过滤或重写不安全数据。在FineWeb-Edu数据集上对1.7B模型进行的实验表明，安全分类准确性有所提高，并且对攻击的敏感性降低。还开发了一个名为MedSafetyWorld的合成环境，以进一步验证该方法在防止模型从安全数据泛化不安全行为方面的有效性。 AI

影响这项研究可能带来更鲁棒的对齐LLM，降低与新兴不安全行为相关的风险。

排序理由该集群包含一篇详细介绍LLM安全对齐新方法的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu · 2026-06-18 04:00

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

arXiv:2606.19168v1 Announce Type: new Abstract: To achieve deeper safety alignment for large language models (LLMs), recent efforts have studied how to push safety interventions earlier into the pretraining stage, primarily by filtering unsafe data or rewriting it into safer form…
arXiv cs.AI TIER_1 English(EN) · Kaifeng Lyu · 2026-06-17 15:11

超越安全数据：预训练阶段的对齐与常规安全反思

To achieve deeper safety alignment for large language models (LLMs), recent efforts have studied how to push safety interventions earlier into the pretraining stage, primarily by filtering unsafe data or rewriting it into safer forms. We argue that pretraining-stage alignment sho…

报道来源 [2]

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

超越安全数据：预训练阶段的对齐与常规安全反思

相关实体

相关话题