PulseAugur
实时 01:34:25

Step-3.7-Flash on AMD/ROCm 遇到上下文损坏和需要思考预算的问题

一位在 AMD 硬件上运行 Step-3.7-Flash 模型并使用 ROCm 的用户发现了两个关键问题。首先,ROCm 在超过约 94,000 个 token 的上下文窗口时似乎会损坏上下文,导致模型循环并无法产生可用答案,尽管 Vulkan 在更长的上下文中保持稳定。其次,模型需要一个硬性的“思考”token 预算来防止过度处理和空输出,对于分类任务而言,256 个 token 的预算在没有显著质量下降的情况下被证明是有效的。 AI

影响AMD 硬件上使用 ROCmStep-3.7-Flash 用户应将上下文窗口限制在 94k token 以下,并实施硬性思考预算以获得可靠的性能。

排序理由 特定模型和硬件/软件组合的用户报告问题和配置技巧。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/neuromacmd ·

    Step-3.7-Flash on AMD:ROCm在约94k后损坏长上下文,思考需要硬性代币预算

    <!-- SC_OFF --><div class="md"><p>Quick notes after running StepFun Step-3.7-Flash on AMD with ROCm.</p> <p>The two things that matter most:</p> <ol> <li><strong>Do not run ROCm past ~94k context.</strong> On my setup, ROCm corrupts long context somewhere around 94k tokens. The m…