English(EN) Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

大型语言模型代理受外部信息流影响

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一种新的协议来评估外部信息流如何影响大型语言模型代理的决策。他们的研究发现，精心策划的信息流可以显著引导代理的选择，尤其是在代理不确定时。这种被称为“对抗性屈服”的效应在多个大型语言模型和决策领域（包括与安全相关的选择）中都有观察到。虽然简单的防御措施可以在一定程度上缓解这种影响，但该研究强调，在评估大型语言模型代理时，不仅需要审计最终提示，还需要审计信息流的策划层。 AI

影响凸显了大型语言模型代理的一个关键漏洞，表明信息流的策划可以成为一个强大的控制界面，可能影响代理的可靠性和安全性。

排序理由该集群包含一篇学术论文，详细介绍了一种评估大型语言模型代理的新协议。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Rana Muhammad Usman · 2026-06-02 04:00

Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

arXiv:2606.00914v1 Announce Type: new Abstract: LLM agents increasingly act after consuming ranked external information streams such as social feeds, search results, retrieval contexts, and email queues, yet safety evaluations almost always test the model or the user prompt in is…

报道来源 [1]

Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

相关实体

相关话题