English(EN) A Lightweight Explainable Guardrail for Prompt Safety

新的轻量级防护栏方法增强了提示安全性和可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一种名为轻量级可解释防护栏（LEG）的新方法，用于识别AI模型不安全的提示。LEG采用多任务学习方法，同时对提示进行分类，并识别提示中证明安全决策依据的具体词语。该系统使用合成数据进行训练，以减轻LLM确认偏见，并采用一种新颖的损失函数来改进弱监督。 AI

影响引入了一种更有效、更具可解释性的检测不安全AI提示的方法，有可能在没有显著计算开销的情况下提高模型安全性。

排序理由这是一篇详细介绍提示安全新方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Md Asiful Islam, Mihai Surdeanu · 2026-04-28 04:00

一种轻量级的可解释提示安全护栏

arXiv:2602.15853v2 Announce Type: replace Abstract: We propose a lightweight explainable guardrail (LEG) method to detect unsafe prompts. LEG uses a multi-task learning architecture to jointly learn a prompt classifier and an explanation classifier, where the latter labels prompt…