English(EN) Opus 4.8 Thinking keeps deteroriating on Hard Prompts English in LMArena (again)

Anthropic 的 Claude 4.8 在硬提示基准测试中的表现下降

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 00:40

根据 Reddit 用户的观察，Anthropic 的 Claude 4.8 模型在“英文硬提示”（Hard Prompts English）基准测试中的表现有所下降。最新版本 4.8 在此特定评估中落后于其前代版本 Claude 4.6，甚至也落后于 4.7。该基准测试被认为难以进行“基准优化”（benchmaxxing），并且一些用户认为它能更好地反映实际性能。 AI

影响领先模型在特定基准测试中出现的性能回归，凸显了随着模型不断发展，保持人工智能能力一致性所面临的挑战。

排序理由用户对基准排行榜的评论，显示特定模型版本的性能有所下降。

在 r/singularity 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/singularity TIER_2 English(EN) · /u/LegitimateLength1916 · 2026-06-07 00:40

Opus 4.8 在 LMArena 上处理硬英文提示时（又一次）表现持续下降

<div class="md">Opus 4.6 Thinking keeps the #1 spot. Followed by Opus 4.7 Thinking (-15 points). Lastly, Opus 4.8 Thinking (-23 points compared to 4.6 Thinking). <a href="https://arena.ai/leaderboard/text/hard-prompts-english">https://arena.…

报道来源 [1]

Opus 4.8 在 LMArena 上处理硬英文提示时（又一次）表现持续下降

相关实体

相关话题