根据 Reddit 用户的观察,Anthropic 的 Claude 4.8 模型在“英文硬提示”(Hard Prompts English)基准测试中的表现有所下降。最新版本 4.8 在此特定评估中落后于其前代版本 Claude 4.6,甚至也落后于 4.7。该基准测试被认为难以进行“基准优化”(benchmaxxing),并且一些用户认为它能更好地反映实际性能。 AI
影响 领先模型在特定基准测试中出现的性能回归,凸显了随着模型不断发展,保持人工智能能力一致性所面临的挑战。
排序理由 用户对基准排行榜的评论,显示特定模型版本的性能有所下降。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →