PulseAugur
实时 09:52:05
实体 Llama Guard 3

Llama Guard 3

PulseAugur coverage of Llama Guard 3 — every cluster mentioning Llama Guard 3 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_44659 ·

    新框架识别AI聊天机器人中老年人特有的风险

    研究人员开发了GrandGuard,一个旨在解决老年用户与AI聊天机器人交互时特定安全问题的框架。该框架包含一个包含50种风险类型的分类法,涵盖心理健康、财务、医疗、毒性和隐私领域,这些风险类型基于现实世界的事件和利益相关者研究。一个包含超过10,000个提示和响应的基准测试显示,领先的LLM在超过一半的情况下未能处理这些老年人特有的风险。为缓解这些问题,实施了两项保障措施,在检测不安全提示方面取得了高准确率。

  2. RESEARCH · CL_45776 ·

    大型语言模型注入检测器在领域伪装攻击下失效

    一项新的研究论文揭示了当前大型语言模型(LLM)安全系统的一个重大漏洞,称为伪装检测差距。当恶意注入的载荷被改写以模仿目标文档的领域特定语言和结构时,就会出现这种差距,导致标准检测器失效。例如,Llama 3.1 8B 的检测率从 93.8% 下降到 9.7%,Gemini 2.0 Flash 的检测率从 100% 下降到 55.6%,而专门的分类器 Llama Guard 3 则未能捕获任何伪装的载荷。此外,旨在作为防御手段的多代理…