PulseAugur
实时 02:53:00
English(EN) Opus 4.8 Thinking keeps deteroriating on Hard Prompts English in LMArena (again)

Anthropic 的 Claude 4.8 在硬提示基准测试中的表现下降

根据 Reddit 用户的观察,AnthropicClaude 4.8 模型在“英文硬提示”(Hard Prompts English)基准测试中的表现有所下降。最新版本 4.8 在此特定评估中落后于其前代版本 Claude 4.6,甚至也落后于 4.7。该基准测试被认为难以进行“基准优化”(benchmaxxing),并且一些用户认为它能更好地反映实际性能。 AI

影响 领先模型在特定基准测试中出现的性能回归,凸显了随着模型不断发展,保持人工智能能力一致性所面临的挑战。

排序理由 用户对基准排行榜的评论,显示特定模型版本的性能有所下降。

在 r/singularity 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/singularity TIER_2 English(EN) · /u/LegitimateLength1916 ·

    Opus 4.8 在 LMArena 上处理硬英文提示时(又一次)表现持续下降

    <!-- SC_OFF --><div class="md"><p>Opus 4.6 Thinking keeps the #1 spot.</p> <p>Followed by Opus 4.7 Thinking (-15 points).</p> <p>Lastly, Opus 4.8 Thinking (-23 points compared to 4.6 Thinking).</p> <p><a href="https://arena.ai/leaderboard/text/hard-prompts-english">https://arena.…