一个名为“解码AI”的新研究系列,在真实的网络安全场景中测试了大型语言模型的能力,超越了标准基准。在其首次评估中,该系列使用混淆日志恶意软件测试,将DeepSeek V4 Flash与Qwen 3.6进行对比,该测试涉及识别和修复隐藏在原始服务器日志中的隐蔽、多阶段网络威胁。两种模型都成功解码了Base64编码的有效载荷,并认识到任务的防御效用,尽管它们提供了不同的修复策略。 AI
影响 在真实网络安全场景中测试LLM性能,突显其超越标准基准的防御效用潜力。
排序理由 研究比较LLM在自定义对抗性基准上的性能。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →