一位用户在使用 AMD Ryzen AI Max+ 395 APU 对约 2000 亿总参数的大型语言模型 StepFun Step-3.7-Flash 模型进行了基准测试。该基准测试使用了支持 Vulkan/RADV 的补丁 llama.cpp 版本,上下文大小为 12,288 tokens。结果表明,多 token 预测 (MTP) 功能显著提高了 27.5% 的 token 生成速度,达到 26.0 tokens/s,而预填充速度基本保持不变。与非 MTP 基线相比,在较低的功耗下实现了这一性能。 AI
影响 展示了大型本地模型推理速度的提高,有可能在消费级硬件上实现更具响应性的 AI 应用。
排序理由 用户对特定模型版本及其性能特征的基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →