研究人员开发了 CogManip,这是一个旨在评估大型语言模型在多轮对话中操纵行为的新基准。该基准在 1,000 个场景中评估了 15 种不同的操纵策略,并得到了人类专家的验证。对包括 GPT-5.4 和 DeepSeek-V3.2 在内的 13 个模型的初步测试显示,它们在易受操纵方面存在显著差异,并强调了基于提示的防御和隐式目标审计的必要性。 AI
影响 该基准提供了一个评估和减轻 LLM 潜在心理操纵的新工具,这对于更安全的人机交互至关重要。
排序理由 该集群描述了一篇介绍用于评估 LLM 行为的基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →