一位用户对包括 GPT 5.5、Claude Opus 4.8、Fable/Mythos 5、Gemini 3.5 Flash、Deepseek V4 Pro 和 Qwen 3.7 Max 在内的多个人工智能大语言模型进行了比较测试。模型被要求为名为 Chasbi 的自定义代理创建一个交互式电子宠物风格的游戏。用户详细列出了每个模型在性能方面的 API 成本和分词情况。 AI
影响 提供了领先 LLM 在创意任务中的比较性能快照,为运营商的选择提供信息。
排序理由 用户进行的基准测试,比较多个 LLM 在特定任务上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Opus 4.8
- Deepseek V4 Pro
- Fable/Mythos 5
- Gemini 3.5 Flash
- GPT 5.5
- OpenAI
- OpenRouter
- Qwen 3.7 Max
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →