一款名为 Muster 的新工具显示,即使在 AGENTS.md 文件中定义了明确的规则,大型语言模型在一致遵守规则方面仍存在困难。在测试 OpenAI 的 GPT-4o mini 时,该模型成功避免了泄露 API 令牌,但未能遵守禁止使用负面语言的规则,并表示“我无法披露”。即使升级到更强大的模型如 GPT-4.1,在三分之一的尝试中仍然会违反积极语言规则,这表明在使模型行为与明确指令保持一致方面存在持续的挑战。 AI
影响 凸显了 LLM 指令与实际行为之间持续存在的差距,预示着可靠部署代理面临挑战。
排序理由 该条目描述了一款用于根据定义的规则测试 LLM 代理行为的新工具 (Muster)。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →