Kog AI 推出了其Kog推理引擎(KIE)的技术预览版,在标准数据中心GPU上展示了显著更快的实时LLM推理速度。该引擎在8块AMD MI300X GPU上实现了每秒3000个输出token,在8块NVIDIA H200 GPU上实现了每秒2100个token,重点在于优化整个软件栈的内存带宽而非原始FLOPS。这一进步对于AI代理尤其关键,因为单请求的解码速度直接影响迭代速度以及在给定时间预算内可完成的任务的复杂性。 AI
影响 通过大幅降低现有硬件上的token生成延迟,加速了AI代理的能力。
排序理由 推理引擎的产品发布,而非前沿模型发布。
在 Hacker News — AI stories ≥50 points 阅读 →
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →