研究人员开发了一种名为轻量级可解释防护栏(LEG)的新方法,用于识别AI模型不安全的提示。LEG采用多任务学习方法,同时对提示进行分类,并识别提示中证明安全决策依据的具体词语。该系统使用合成数据进行训练,以减轻LLM确认偏见,并采用一种新颖的损失函数来改进弱监督。 AI
影响 引入了一种更有效、更具可解释性的检测不安全AI提示的方法,有可能在没有显著计算开销的情况下提高模型安全性。
排序理由 这是一篇详细介绍提示安全新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →