PulseAugur
实时 07:11:02
English(EN) ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation

新基准评估大型语言模型代理在网络威胁调查任务中的表现

研究人员推出了 ExCyTIn-Bench,这是一个旨在评估大型语言模型 (LLM) 代理在网络威胁调查领域能力的新基准。该基准利用了来自受控 Azure 租户的安全日志,包括 Microsoft Sentinel 数据,来构建威胁调查图谱。该系统基于这些图谱生成问题,提供可解释的真实答案,并允许扩展到新的日志类型。目前的评估显示,即使是表现最好的模型得分也仅为 0.606,这表明在此挑战性任务中仍有很大的改进空间。 AI

影响 为大型语言模型代理在网络安全领域的应用引入了新的评估框架,突出了当前的性能局限性和未来的研究方向。

排序理由 这是一篇介绍用于评估大型语言模型代理在特定任务中表现的新基准的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准评估大型语言模型代理在网络威胁调查任务中的表现

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Ra\'ul Mel\'endez Luj\'an, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar ·

    ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation

    arXiv:2507.14201v3 Announce Type: replace-cross Abstract: We present ExCyTIn-Bench, the first benchmark to Evaluate an LLM agent X on the task of Cyber Threat Investigation through security questions derived from investigation graphs. Real-world security analysts must sift throug…