研究人员推出了HaloGuard 1.0,这是一个用于AI安全的开放权重宪法分类器。该模型在多语言提示安全基准测试中表现出最先进的性能,与现有的领先开放防护模型相比,在模型尺寸显著减小的情况下取得了高F1分数。HaloGuard 1.0利用了包含46项策略的自然语言宪法来驱动合成数据生成,并采用了双层无害设计来解决误报问题。这些模型以开放权重形式发布,并进行持续的对抗性红队测试,以增强其对各种攻击的鲁棒性。 AI
影响 为确保多语言AI安全提供了一个更高效、更易于访问的工具。
排序理由 该集群描述了一个用于AI安全的新开放权重模型的发布,该模型在研究论文中有详细介绍。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →