Flask 和 Jinja 的创造者 Armin Ronacher 报告称,Anthropic 最新的 AI 模型 Opus 4.8 和 Sonnet 5 在工具使用方面表现出退步,在长时间的编码会话中,约有 20% 的工具调用会虚构不存在的参数。在较旧的 Anthropic 模型或 OpenAI 的 Codex 模型中不存在此问题。Ronacher 认为,Anthropic 对格式错误的工具调用容忍度较高的训练环境可能是根本原因,导致模型在与更严格的模式交互时会虚构字段。实施“严格模式”并移除对话历史可以显著减少这些失败。 AI
影响 先进 AI 模型在工具使用方面可能存在的问题,可能会影响 AI 代理在复杂任务中的可靠性。
排序理由 这是对 Anthropic 模型报告问题的评论,并非来自 Anthropic 的直接发布或公告。
- Anthropic
- Armin Ronacher
- codex
- Flask
- Haiku
- Jinja Template Engine
- OpenAI
- Opus 4.5
- Opus 4.8
- SENTRY
- Sonnet 5
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →