研究人员探索了使用模拟工具调用来隔离大型语言模型(LLM)的不可信输入,并假设这将提高鲁棒性。他们在七个模型和三个任务上的实验表明,该方法通常未能提高安全性,在某些情况下甚至增加了攻击成功率。研究结果表明,需要对已部署系统中这一局限性进行进一步评估,并开发更强的指令层级训练或处理不可信数据的新原语。 AI
影响 这项研究突显了大型语言模型(LLM)安全方面的一个潜在漏洞,表明当前处理不可信输入的方法可能不足,需要进一步研究。
排序理由 该集群包含一篇详细介绍大型语言模型(LLM)安全研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →