PulseAugur
实时 10:06:56
实体 HaloGuard 1.0

HaloGuard 1.0

PulseAugur coverage of HaloGuard 1.0 — every cluster mentioning HaloGuard 1.0 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123162 ·

    HaloGuard 1.0: 开放权重AI安全分类器实现SOTA性能

    研究人员推出了HaloGuard 1.0,一个用于AI安全的开放权重宪法分类器。该模型在多语言提示安全基准测试中表现出最先进的性能,与现有的领先开放防护模型相比,在模型尺寸显著减小的情况下获得了高F1分数。HaloGuard 1.0利用了包含46项策略的自然语言宪法来驱动合成数据生成,并采用了双层无害设计来解决误报问题。这些模型以开放权重形式发布,并进行持续的对抗性红队测试,以增强其对各种攻击的鲁棒性。