实体 Prompt Guard 2

Prompt Guard 2

PulseAugur coverage of Prompt Guard 2 — every cluster mentioning Prompt Guard 2 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_79125 · Jun 7 · 01:41

新的LLM隐写术方法绕过文本、激活防御

研究人员发现了一种在大型语言模型（LLM）中嵌入隐藏消息的新颖方法，该方法可以绕过传统的基于文本的安全措施。一种技术涉及将有效载荷作为结构化浮点参数进行传输，即使存在文本分类器也能逃避检测。另一种方法利用LLM推理中使用的伪随机数生成器，将消息嵌入到种子中，从而仅凭生成的文本就可以重建秘密。此外，一项研究表明，即使是旨在检测这些隐藏消息的复杂的内部激活探测也可以被规避，尽管特定的数据级干预可以恢复可检测性。