English(EN) A Flask Creator Says Anthropic's Newest Models Got Worse at Using Tools

据报道，Anthropic 最新人工智能模型在工具使用方面出现退步

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-05 03:01

Flask 和 Jinja 的创造者 Armin Ronacher 报告称，Anthropic 最新的 AI 模型 Opus 4.8 和 Sonnet 5 在工具使用方面表现出退步，在长时间的编码会话中，约有 20% 的工具调用会虚构不存在的参数。在较旧的 Anthropic 模型或 OpenAI 的 Codex 模型中不存在此问题。Ronacher 认为，Anthropic 对格式错误的工具调用容忍度较高的训练环境可能是根本原因，导致模型在与更严格的模式交互时会虚构字段。实施“严格模式”并移除对话历史可以显著减少这些失败。 AI

影响先进 AI 模型在工具使用方面可能存在的问题，可能会影响 AI 代理在复杂任务中的可靠性。

排序理由这是对 Anthropic 模型报告问题的评论，并非来自 Anthropic 的直接发布或公告。

在 dev.to — Anthropic tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — Anthropic tag TIER_1 English(EN) · Breach Protocol · 2026-07-05 03:01

Flask 创造者称 Anthropic 最新模型使用工具能力变差

<p>Anthropic's newest AI models are inventing extra, made-up fields when they call external tools, according to an essay published July 4, 2026 by Armin Ronacher, the creator of the Flask and Jinja web frameworks and Sentry's founder. On long multi-step coding sessions, Opus 4.8 …

报道来源 [1]

Flask 创造者称 Anthropic 最新模型使用工具能力变差

相关实体

相关话题