PulseAugur
实时 12:12:18
English(EN) Enhancing LLM Safety Through a Theoretical Minimax Game Lens

新的极大极小强化学习框架生成合成多语言LLM安全数据

研究人员开发了一种新颖的极大极小强化学习框架,用于为大型语言模型(LLMs)生成合成多语言安全数据。该方法包含一个数据生成器和一个分类器模型,它们协同演化,被构建为一个收敛到纳什均衡的极大极小博弈。实证结果表明,合成数据显著提高了分类器性能,使一个较小的模型在英语基准测试上性能优于最先进的模型近10%,并实现了4.5倍的推理速度提升。 AI

影响 该框架提供了一种可扩展的方法来生成多语言安全数据,有望加速开发更强大、更安全的全球LLMs。

排序理由 该集群包含一篇学术论文,详细介绍了用于增强LLM安全性的新理论框架和实证评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li ·

    Enhancing LLM Safety Through a Theoretical Minimax Game Lens

    arXiv:2502.05163v2 Announce Type: replace Abstract: The rapid advancement of large language models (LLMs) necessitates effective mechanisms to ensure their responsible deployment by accurately distinguishing unsafe content from benign content. While substantial safety datasets ar…