PulseAugur
实时 11:32:46

HaloGuard 1.0: 开放权重AI安全分类器实现SOTA性能

研究人员推出了HaloGuard 1.0,一个用于AI安全的开放权重宪法分类器。该模型在多语言提示安全基准测试中表现出最先进的性能,与现有的领先开放防护模型相比,在模型尺寸显著减小的情况下获得了高F1分数。HaloGuard 1.0利用了包含46项策略的自然语言宪法来驱动合成数据生成,并采用了双层无害设计来解决误报问题。这些模型以开放权重形式发布,并进行持续的对抗性红队测试,以增强其对各种攻击的鲁棒性。 AI

影响 为确保多语言AI安全提供了一个更高效、更易于访问的工具。

排序理由 该集群描述了一个用于AI安全的新开放权重模型的发布,该模型在研究论文中有详细介绍。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

HaloGuard 1.0: 开放权重AI安全分类器实现SOTA性能

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Navaneeth Sangameswaran, Preetham S, Ashmiya Lenin ·

    HaloGuard 1.0: An Open Weights Constitutional Classifier for Multilingual AI Safety

    arXiv:2607.02079v1 Announce Type: new Abstract: We present HaloGuard 1.0, an open-weights implementation of the constitutional-classifier paradigm for input safety. It achieves state-of-the-art performance on English and multilingual prompt-safety benchmarks at roughly one-tenth …

  2. arXiv cs.CL TIER_1 English(EN) · Ashmiya Lenin ·

    HaloGuard 1.0: An Open Weights Constitutional Classifier for Multilingual AI Safety

    We present HaloGuard 1.0, an open-weights implementation of the constitutional-classifier paradigm for input safety. It achieves state-of-the-art performance on English and multilingual prompt-safety benchmarks at roughly one-tenth the model size of current leading open guard mod…