实体 Adversarial prompts

Adversarial prompts

PulseAugur coverage of Adversarial prompts — every cluster mentioning Adversarial prompts across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_107710 · Jun 23 · 05:40

新研究解决多语言LLM毒性检测与缓解问题

两篇新研究论文探讨了在大型语言模型（LLM）中检测和缓解毒性的方法，特别关注多语言环境。第一篇论文调查了跨不同语言识别和减少有害输出的现有策略，强调了语言覆盖不均和有害定义具有文化特异性等挑战。第二篇论文介绍了ToxSearch-S，一种分布式进化搜索算法，旨在寻找引发毒性响应的对抗性提示，并通过MPI实现和改进的毒性检测与现有方法相比，展示了效率的提升。

新研究解决多语言LLM毒性检测与缓解问题