一位在 AMD 硬件上运行 Step-3.7-Flash 模型并使用 ROCm 的用户发现了两个关键问题。首先,ROCm 在超过约 94,000 个 token 的上下文窗口时似乎会损坏上下文,导致模型循环并无法产生可用答案,尽管 Vulkan 在更长的上下文中保持稳定。其次,模型需要一个硬性的“思考”token 预算来防止过度处理和空输出,对于分类任务而言,256 个 token 的预算在没有显著质量下降的情况下被证明是有效的。 AI
影响 在 AMD 硬件上使用 ROCm 的 Step-3.7-Flash 用户应将上下文窗口限制在 94k token 以下,并实施硬性思考预算以获得可靠的性能。
排序理由 特定模型和硬件/软件组合的用户报告问题和配置技巧。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →