PulseAugur
实时 13:31:03
English(EN) Non-deterministic Vulnerability Detection Benchmark System [P]

开发者寻求对新型LLM漏洞检测基准测试的反馈

一位开发者创建了一个基准测试系统,旨在测试大型语言模型(LLMs)在代码混淆和包含误导性注释的情况下检测代码漏洞的能力。该系统使用Juliet测试用例,并进行了修改以使其看起来像一个真实的代码库,同时还加入了具有不同情感倾向的注释,以检验它们对LLM性能的影响。开发者正在寻求关于该项目新颖性和潜力的反馈,并希望在完成其演示和与已发布的LLMs进行基准测试方面获得帮助。 AI

影响 该基准测试有助于提高用于代码分析和开发的AI模型的安全性。

排序理由 该项目描述了一个用于评估AI模型的新基准测试系统,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

开发者寻求对新型LLM漏洞检测基准测试的反馈

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/Psychological_Meat_6 ·

    非确定性漏洞检测基准系统 [P]

    <!-- SC_OFF --><div class="md"><p>I work in firmware adjacent to AI, so not an ML guy exactly, so that's why I've come here. For work we got a bit concerned about Mythos and all the hype made me explore some benchmarking work. I now have this pretty cool benchmark that's about 80…