PulseAugur
实时 10:18:31
实体 Guardrail systems

Guardrail systems

PulseAugur coverage of Guardrail systems — every cluster mentioning Guardrail systems across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123076 ·

    新方法通过行为监控检测人工智能护栏

    研究人员开发了一种新颖的黑盒方法来检测人工智能应用程序中护栏系统的存在和功能。该方法通过监控行为信号,包括 HTTP、词汇和时序数据,在事先不知道系统的情况下区分护栏拦截和 LLM 拒绝。实验表明,该方法在检测护栏方面达到了 100% 的准确率,并能识别出它们旨在阻止的具体内容类别,区分 LLM 拒绝的 F1 分数为 98%。