PulseAugur
实时 18:44:15
实体 Anshuman Suri

Anshuman Suri

PulseAugur coverage of Anshuman Suri — every cluster mentioning Anshuman Suri across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_05125 ·

    研究人员开发新方法来测试和绕过大型语言模型安全限制

    研究人员开发了测试和绕过大型语言模型(LLMs)安全限制的新方法。一种名为LogiBreak的方法将有害的自然语言提示转换为形式逻辑表达式,以利用对齐数据中的分布差距。另一个系统Boa则通过系统地搜索越狱响应来解决“越狱预言机问题”,从而实现更严格的安全评估和防御评估。