English(EN) Configurable Reward Model for Balanced Safety Alignment

新的大语言模型对齐方法探索博弈论和可配置安全

作者 PulseAugur 编辑部 · [4 个来源] · 2026-06-01 04:00

研究人员正在探索用于大语言模型（LLMs）安全对齐的新颖方法，超越了传统的擦除技术。一种方法将安全视为两个大语言模型之间的非零和博弈，一个攻击者和一个防御者，通过强化学习进行迭代训练。另一种方法提出了一种辩证方法，将“不安全”的知识整合到专门的专家中，并由一个轻量级路由器指导，以确保安全和信息丰富的输出。第三种方法引入了一个可配置的奖励模型，该模型可以适应不断发展的安全规范，在基准测试中无需额外的人工标注即可达到最先进的性能。 AI

影响这些多样化的方法可能带来更强大、更适应性强的大语言模型安全机制，在不损害安全性的前提下提高其可用性。

排序理由该集群包含多篇学术论文，详细介绍了用于大语言模型安全对齐的新研究方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。我们如何撰写摘要 →

报道来源 [4]

arXiv cs.CL TIER_1 English(EN) · Guoli Wang, Haonan Shi, Tu Ouyang, An Wang · 2026-06-04 04:00

少量Token，巨大杠杆：在微调过程中约束安全Token以保持安全对齐

arXiv:2603.07445v2 Announce Type: replace Abstract: Large language models (LLMs) often require fine-tuning (FT) to perform well on downstream tasks, but FT can induce safety-alignment drift even when the training dataset contains only benign data. Prior work shows that introducin…
arXiv cs.AI TIER_1 English(EN) · Anselm Paulus, Ilia Kulikov, Brandon Amos, R\'emi Munos, Ivan Evtimov, Kamalika Chaudhuri, Arman Zharmagambetov · 2026-06-02 04:00

通过非合作博弈实现语言模型（LM）的安全对齐

arXiv:2512.20806v3 Announce Type: replace Abstract: Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tu…
arXiv cs.LG TIER_1 English(EN) · Maryam Hashemzadeh, Jerry Huang, Minseon Kim, Marc-Alexandre C\^ot\'e, Sarath Chandar · 2026-06-02 04:00

对齐的辩证法：利用不安全知识实现动态安全路由

arXiv:2606.00686v1 Announce Type: new Abstract: The prevailing paradigm in large language model (LLM) alignment operates via erasure, filtering unsafe data or training models to strictly refuse harmful prompts. While effective at reducing immediate toxicity, this approach fundame…
arXiv cs.CL TIER_1 English(EN) · Zhengping Jiang, Mehran Khodabandeh, Akash Bharadwaj, Manik Bhandari, Mayur Srungarapu, Anqi Liu, Benjamin Van Durme, Li Chen · 2026-06-01 04:00

可配置奖励模型以实现平衡的安全对齐

arXiv:2605.30487v1 Announce Type: new Abstract: Aligning large language models (LLMs) to heterogeneous and rapidly evolving safety requirements remains a critical challenge. Existing instruction-tuned LLMs and standalone safety classifiers often fail to generalize to new safety c…

报道来源 [4]

少量Token，巨大杠杆：在微调过程中约束安全Token以保持安全对齐

通过非合作博弈实现语言模型（LM）的安全对齐

对齐的辩证法：利用不安全知识实现动态安全路由

可配置奖励模型以实现平衡的安全对齐

相关实体

相关话题