实体
Terminal-Bench 2.1
Terminal-Bench 2.1
PulseAugur coverage of Terminal-Bench 2.1 — every cluster mentioning Terminal-Bench 2.1 across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Google 的 Gemini 3.5 Flash 在编码和代理任务上超越 3.1 Pro
Google 的 Gemini 3.5 Flash 模型在多项关键基准测试中超越了其前身 Gemini 3.1 Pro,尤其是在编码和代理任务方面。这一新层级相比 3.1 Pro 提供了显著的成本降低 40%,并且输出生成速度大约快四倍。虽然 Gemini 3.5 Flash 在工具使用和代理性能方面表现出色,但 Gemini 3.1 Pro 在纯粹推理和新颖问题解决基准测试中仍保持优势。
-
Google DeepMind releases Gemini 3.5 Flash for faster agentic tasks
Google DeepMind has launched Gemini 3.5 Flash, a new frontier intelligence model optimized for speed and agentic tasks. This model excels at complex, long-horizon tasks in coding and agent development, outperforming pre…