实体 MLJailDe

MLJailDe

PulseAugur coverage of MLJailDe — every cluster mentioning MLJailDe across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_79831 · Jun 9 · 04:00

新研究解决了多语言LLM和VLM的越狱漏洞问题

研究人员开发了新的方法来检测和评估多语言大型语言模型（LLM）和视觉-语言模型（VLM）中的越狱漏洞。一种方法MLJailDe使用反向翻译和相对距离约束来创建一个多语言数据集，并提高LLM越狱检测的跨语言泛化能力，在未见过语言上达到了97.1%的F1分数。另一项研究引入了MLingualFC，这是一个VLM的基准测试，将有害指令编码成五种语言的流程图图像，揭示了显著的多语言安全差距，并表明视觉攻击可以绕过跨语言的安全对齐，尽管成功率因脚本而异。