PulseAugur
实时 12:30:00
English(EN) MultiTurnPSB: Evaluating Multi-Turn Jailbreak Attacks an dClassifier-Based Defenses for Medical AI Safety

新基准揭示医疗AI在多轮对话中的安全漏洞

研究人员开发了MultiTurnPSB,这是一个用于评估医疗AI聊天机器人在多轮对话中安全性的新基准。标准的单轮评估未能捕捉到随着对话进行,不安全响应显著增加的情况,其中一个模型的不安全响应比例从35%上升到第四轮的近80%。研究还发现,Claude Sonnet 4.5在拒绝行为方面与GPT-4.1-mini相比表现出显著差异,这表明安全训练可能会泛化到攻击者角色。 AI

影响 凸显了对话式AI在安全方面的关键差距,尤其是在医疗保健等敏感应用领域,这需要更强大的多轮评估方法。

排序理由 该集群包含一篇详细介绍新基准和AI模型评估的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Anushka Sheoran, Yiduo Hao ·

    MultiTurnPSB:评估多轮越狱攻击和基于分类器的防御措施以确保医疗AI安全

    arXiv:2606.02630v1 Announce Type: cross Abstract: Patient-facing medical chatbots are commonly evaluated on single-turn prompts, yet real users push back after refusals, add urgency, and invoke authority. We introduce MultiTurnPSB, a four-turn adversarial extension of PatientSafe…