English(EN) Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content

新的Opir模型为LLM提供高效的多任务安全分类

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 04:00

研究人员推出Opir，这是一系列新的基于编码器的护栏模型，专为大型语言模型应用中的高效多任务安全分类而设计。Opir模型基于GLiClass架构构建，能够检测不安全提示、有毒语言、越狱尝试和有害内容，其部署占用的空间比大型护栏模型小得多。这些模型在全面的分类法上进行了训练，并与评估工具一起开源，以支持各种安全分类任务。 AI

影响为LLM安全过滤提供了更高效、更小的模型，可能降低部署成本和延迟。

排序理由该集群描述了一篇介绍用于安全分类的新型模型系列的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ihor Stepanov, Aleksandr Smechov · 2026-05-29 04:00

Opir：毒性、越狱、仇恨言论和有害内容的有效多任务安全分类

arXiv:2605.29659v1 Announce Type: cross Abstract: Real-time safety filtering for large language model (LLM) applications requires classifiers that can detect unsafe prompts, toxic language, jailbreak attempts, and unsafe responses without the cost profile of large guardrail model…

报道来源 [1]

Opir：毒性、越狱、仇恨言论和有害内容的有效多任务安全分类

相关实体

相关话题