English(EN) Non-deterministic Vulnerability Detection Benchmark System [P]

开发者寻求对新型LLM漏洞检测基准测试的反馈

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 23:34

一位开发者创建了一个基准测试系统，旨在测试大型语言模型（LLMs）在代码混淆和包含误导性注释的情况下检测代码漏洞的能力。该系统使用Juliet测试用例，并进行了修改以使其看起来像一个真实的代码库，同时还加入了具有不同情感倾向的注释，以检验它们对LLM性能的影响。开发者正在寻求关于该项目新颖性和潜力的反馈，并希望在完成其演示和与已发布的LLMs进行基准测试方面获得帮助。 AI

影响该基准测试有助于提高用于代码分析和开发的AI模型的安全性。

排序理由该项目描述了一个用于评估AI模型的新基准测试系统，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/Psychological_Meat_6 · 2026-06-22 23:34

非确定性漏洞检测基准系统 [P]

<div class="md"><p>I work in firmware adjacent to AI, so not an ML guy exactly, so that's why I've come here. For work we got a bit concerned about Mythos and all the hype made me explore some benchmarking work. I now have this pretty cool benchmark that's about 80…

报道来源 [1]

非确定性漏洞检测基准系统 [P]

相关实体

相关话题