English(EN) Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

模拟工具调用未能保护大型语言模型免受不可信输入的侵害

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员探索了使用模拟工具调用来隔离大型语言模型（LLM）的不可信输入，并假设这将提高鲁棒性。他们在七个模型和三个任务上的实验表明，该方法通常未能提高安全性，在某些情况下甚至增加了攻击成功率。研究结果表明，需要对已部署系统中这一局限性进行进一步评估，并开发更强的指令层级训练或处理不可信数据的新原语。 AI

影响这项研究突显了大型语言模型（LLM）安全方面的一个潜在漏洞，表明当前处理不可信输入的方法可能不足，需要进一步研究。

排序理由该集群包含一篇详细介绍大型语言模型（LLM）安全研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

GSM8K
OpenAI

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · David Gros, Adam Gleave · 2026-06-01 04:00

使用模拟工具调用评估以隔离不可信的提示输入

arXiv:2605.30521v1 Announce Type: new Abstract: Large language models must frequently process untrusted inputs, such as judging an answer from another model or running tasks like spam and harm classifiers while under adversarial pressure. These inputs are often string-formatted d…

报道来源 [1]

使用模拟工具调用评估以隔离不可信的提示输入

相关实体

相关话题