2026 年 AI 计算的主要瓶颈将从原始处理能力转向效率,特别是每瓦特令牌数。这是因为推理(目前占 AI 计算支出的绝大部分)本质上是一个功耗受限的问题,尤其是在数据中心功耗分配固定的情况下。因此,能够最大化每兆瓦特生成令牌数的最高效 GPU 将比那些拥有最高 FLOPS 的 GPU 更受青睐。服务软件和数值精度(如 FP8 和 FP4)的进步可以在不要求新硬件的情况下显著降低每令牌成本,提供比仅购买更多 GPU 更直接、更具成本效益的解决方案。 AI
影响 将焦点转移到每瓦特令牌数等效率指标上,影响未来 AI 推理的硬件和软件开发。
排序理由 文章讨论了 AI 计算基础设施的未来趋势和战略考量,侧重于效率指标,而非特定的产品发布或基准测试结果。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →