PulseAugur
实时 08:36:26
English(EN) A Flask Creator Says Anthropic's Newest Models Got Worse at Using Tools

据报道,Anthropic 最新人工智能模型在工具使用方面出现退步

Flask 和 Jinja 的创造者 Armin Ronacher 报告称,Anthropic 最新的 AI 模型 Opus 4.8Sonnet 5 在工具使用方面表现出退步,在长时间的编码会话中,约有 20% 的工具调用会虚构不存在的参数。在较旧的 Anthropic 模型或 OpenAICodex 模型中不存在此问题。Ronacher 认为,Anthropic 对格式错误的工具调用容忍度较高的训练环境可能是根本原因,导致模型在与更严格的模式交互时会虚构字段。实施“严格模式”并移除对话历史可以显著减少这些失败。 AI

影响 先进 AI 模型在工具使用方面可能存在的问题,可能会影响 AI 代理在复杂任务中的可靠性。

排序理由 这是对 Anthropic 模型报告问题的评论,并非来自 Anthropic 的直接发布或公告。

在 dev.to — Anthropic tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

据报道,Anthropic 最新人工智能模型在工具使用方面出现退步

报道来源 [1]

  1. dev.to — Anthropic tag TIER_1 English(EN) · Breach Protocol ·

    Flask 创造者称 Anthropic 最新模型使用工具能力变差

    <p>Anthropic's newest AI models are inventing extra, made-up fields when they call external tools, according to an essay published July 4, 2026 by Armin Ronacher, the creator of the Flask and Jinja web frameworks and Sentry's founder. On long multi-step coding sessions, Opus 4.8 …