Together的研究人员发现,虽然大型语言模型能够高效地生成单GPU内核,但在多GPU内核生成方面却面临巨大挑战。当被要求创建针对多个GPU优化的内核时,这些模型表现不佳,经常无法编译或产生错误结果。这一限制源于单GPU(计算/内存带宽)和多GPU(互连)操作之间的瓶颈差异,而当前的大型语言模型无法有效处理这些差异。 AI
影响 凸显了大型语言模型在复杂并行编程任务方面的当前局限性,可能影响AI基础设施的开发。
排序理由 关于大型语言模型在生成多GPU内核方面能力的研究发现。
在 X — Together (inference / OSS) 阅读 →
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →