PulseAugur
实时 18:11:51
实体 MLJailDe

MLJailDe

PulseAugur coverage of MLJailDe — every cluster mentioning MLJailDe across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_79831 ·

    新研究解决了多语言LLM和VLM的越狱漏洞问题

    研究人员开发了新的方法来检测和评估多语言大型语言模型(LLM)和视觉-语言模型(VLM)中的越狱漏洞。一种方法MLJailDe使用反向翻译和相对距离约束来创建一个多语言数据集,并提高LLM越狱检测的跨语言泛化能力,在未见过语言上达到了97.1%的F1分数。另一项研究引入了MLingualFC,这是一个VLM的基准测试,将有害指令编码成五种语言的流程图图像,揭示了显著的多语言安全差距,并表明视觉攻击可以绕过跨语言的安全对齐,尽管成功率因脚本而异。