一位开发者创建了一个名为 agent-eval 的新框架,用于测试大型语言模型在代理循环中使用时的安全性和鲁棒性。该框架采用三层评估金字塔,首先进行确定性检查,然后进行统计分析,最后使用大型语言模型作为裁判来处理更复杂的输出。当使用十种对抗性场景(包括提示注入和矛盾指令)对五个不同的大型语言模型进行测试时,所有模型都未能获得满分,表现最好的模型得分仅为 62.5%。 AI
影响 突出了当前大型语言模型在代理系统中使用时存在的关键漏洞,有必要改进安全性和评估方法。
排序理由 该集群描述了一个新颖的评估框架及其在现有模型上的应用,这构成了研究。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →