提出了一种名为MDASH的新基准,用于评估网络安全领域的多模型代理系统,超越了单一提示的准确性,在真实条件下评估端到端性能。随着大型语言模型越来越多地集成到安全运营中,用于警报丰富和剧本自动化等任务,这种方法至关重要。该基准旨在衡量系统级对检测和响应时间的影响,同时还考虑了安全性、策略合规性以及诸如提示注入或工具滥用等潜在故障模式。 AI
影响 为安全领域的人工智能建立了一个新的评估框架,推动了超越单一模型性能的系统级评估。
排序理由 该集群描述了一个用于评估网络安全领域人工智能系统的拟议基准,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →