Google 的 Gemini 3.5 Flash 模型在多项关键基准测试中超越了其前身 Gemini 3.1 Pro,尤其是在编码和代理任务方面。这一新层级相比 3.1 Pro 提供了显著的成本降低 40%,并且输出生成速度大约快四倍。虽然 Gemini 3.5 Flash 在工具使用和代理性能方面表现出色,但 Gemini 3.1 Pro 在纯粹推理和新颖问题解决基准测试中仍保持优势。 AI
影响 加速在代理任务中采用更便宜、更快的模型,可能降低 AI 驱动应用程序的成本。
排序理由 来自前沿实验室(Google)的新模型发布,并与先前模型进行了性能基准测试。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- Aider
- ARC-AGI-2
- Claude Opus 4.7
- Cursor
- Finance Agent v2
- Gemini 3.1 Pro
- Gemini 3.5 Flash
- GPT-5.5
- Humanity's Last Exam
- MCP Atlas
- Terminal-Bench 2.1
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →