Step-3.7-Flash on AMD/ROCm 遇到上下文损坏和需要思考预算的问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 21:13

一位在 AMD 硬件上运行 Step-3.7-Flash 模型并使用 ROCm 的用户发现了两个关键问题。首先，ROCm 在超过约 94,000 个 token 的上下文窗口时似乎会损坏上下文，导致模型循环并无法产生可用答案，尽管 Vulkan 在更长的上下文中保持稳定。其次，模型需要一个硬性的“思考”token 预算来防止过度处理和空输出，对于分类任务而言，256 个 token 的预算在没有显著质量下降的情况下被证明是有效的。 AI

影响在 AMD 硬件上使用 ROCm 的 Step-3.7-Flash 用户应将上下文窗口限制在 94k token 以下，并实施硬性思考预算以获得可靠的性能。

排序理由特定模型和硬件/软件组合的用户报告问题和配置技巧。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/neuromacmd · 2026-06-11 21:13

Step-3.7-Flash on AMD：ROCm在约94k后损坏长上下文，思考需要硬性代币预算

<div class="md">Quick notes after running StepFun Step-3.7-Flash on AMD with ROCm. The two things that matter most: <ol> <li>Do not run ROCm past ~94k context. On my setup, ROCm corrupts long context somewhere around 94k tokens. The m…

报道来源 [1]

Step-3.7-Flash on AMD：ROCm在约94k后损坏长上下文，思考需要硬性代币预算

相关实体

相关话题