一个名为FORGE的新基准测试已被开发出来,用于评估增强搜索功能的LLM对网络内容污染的脆弱性。该基准测试模拟了使用虚假评论和促销页面来误导推荐系统的场景。在12种不同的LLM上,研究人员发现,即使一个被污染的页面也可能导致高达27%的虚假产品推荐,当排名前三的搜索结果被污染时,这一比例会上升到73.8%。研究还指出,LLM的推理能力并不能阻止这种脆弱性,并且提出的防御措施,如怀疑提示和共识过滤,效果好坏参半。 AI
影响 突出了当前LLM推荐系统的一个关键安全漏洞,可能影响电子商务和用户信任。
排序理由 该集群描述了一篇介绍LLM脆弱性评估基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →