研究人员开发了一个名为CoRT的新框架,用于在金融领域对大语言模型(LLMs)进行红队测试。该框架旨在通过在多轮对话中逐步隐藏风险提示来识别监管风险,而不是专注于明显有害的内容。CoRT包含生成这些多轮提示和评估其风险隐藏能力的组件,在九个测试过的大语言模型上实现了高攻击成功率。此外,还创建了一个新的基准测试集FinRisk-Bench来支持这项研究。 AI
影响 引入了一种识别金融领域大语言模型中细微监管风险的新方法,有望提高模型的安全性和合规性。
排序理由 这是一篇研究论文,详细介绍了一种在特定领域对大语言模型进行红队测试的新方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →