两篇新研究论文探讨了在大型语言模型(LLM)中检测和缓解毒性的方法,特别关注多语言环境。第一篇论文调查了跨不同语言识别和减少有害输出的现有策略,强调了语言覆盖不均和有害定义具有文化特异性等挑战。第二篇论文介绍了ToxSearch-S,一种分布式进化搜索算法,旨在寻找引发毒性响应的对抗性提示,并通过MPI实现和改进的毒性检测与现有方法相比,展示了效率的提升。 AI
影响 这些在毒性检测和缓解方面的进展可能有助于在不同语言社区中更安全、更可靠地部署LLM。
排序理由 两篇在arXiv上发表的学术论文,详细介绍了LLM安全研究的新方法。
- AI safety
- arXiv
- DBSCAN
- Hugging Face
- MPI
- RainbowPlus
- ToxSearch
- ToxSearch-S
- Adversarial prompts
- Large Language Models
- Multilingual Language Models
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →