Anthropic 的 Claude 在 6 月份的可靠性有所下降,两次中断导致其在 LLM 指数上的表现降至 90。与此同时,OpenAI 的 ChatGPT 表现有所提升,在同一指标上达到 86。这凸显了正常运行时间对于 AI 系统日益增长的重要性,尤其是在无人值守的代理越来越多地用于代码执行的情况下。 AI
影响 强调了随着无人值守代理在运营任务中日益普及,稳定 AI 性能的关键需求。
排序理由 该条目讨论了现有 AI 模型的性能指标和可靠性,而不是新版本发布或重大的行业事件。
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →