最近一项测试评估了四款 Anthropic Claude 模型(Haiku 4.5、Sonnet 4.6、Opus 4.8 和 Fable 5)在实际任务上的表现,而非标准基准测试。令人惊讶的是,最小的模型 Claude Haiku 4.5 在一项公司术语改写任务中表现优于其他模型,并严格遵守了所有约束条件。测试还表明,较大的模型有时会出现事实幻觉或意外更改,这凸显了以基准驱动的评估在实际应用中的局限性。 AI
影响 强调了较小、专业化的模型可以在特定的实际任务中表现出色,挑战了“较大模型总是更优越”的假设。
排序理由 文章基于自定义任务,提出了对 AI 模型的观点性评估,而非新的发布或基准测试结果。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →