English(EN) Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain

研究人员开发AI红队测试框架以检测大语言模型中的金融风险

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一个名为CoRT的新框架，用于在金融领域对大语言模型（LLMs）进行红队测试。该框架旨在通过在多轮对话中逐步隐藏风险提示来识别监管风险，而不是专注于明显有害的内容。CoRT包含生成这些多轮提示和评估其风险隐藏能力的组件，在九个测试过的大语言模型上实现了高攻击成功率。此外，还创建了一个新的基准测试集FinRisk-Bench来支持这项研究。 AI

影响引入了一种识别金融领域大语言模型中细微监管风险的新方法，有望提高模型的安全性和合规性。

排序理由这是一篇研究论文，详细介绍了一种在特定领域对大语言模型进行红队测试的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Gang Cheng, Haibo Jin, Wenbin Zhang, Haohan Wang, Jun Zhuang · 2026-04-28 04:00

Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain

arXiv:2509.10546v2 Announce Type: replace Abstract: Large Language Models (LLMs) are increasingly deployed in finance, where unsafe behavior can lead to serious regulatory risks. However, most red-teaming research focuses on overtly harmful content and overlooks attacks that appe…

报道来源 [1]

Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain

相关实体

相关话题