一位 Reddit r/LocalLLaMA 社区的用户正在考虑购买四块 Ascend GX10 GPU,以运行未来的开源大型语言模型,例如潜在的 "fable 5" 版本。他们引用了其他人使用类似硬件(4x DGX Sparks)运行 GLM5.2 的性能基准,指出在 128k 上下文窗口下,提示处理速度为 400-500 tokens/秒,输出速度约为 15 tokens/秒。尽管承认这速度不算飞快,但用户认为这是可用的,尤其是在量化的情况下,并希望为即将推出的模型做好准备。 AI
影响 潜在用户正在评估运行未来开源 LLM 的硬件配置。
排序理由 用户讨论关于运行 LLM 的硬件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →