PulseAugur
实时 17:18:07
English(EN) I test 8 free LLMs that involve tool usage every week.

免费LLM工具使用不可靠,性能衰减快

每周对支持工具使用的免费LLM进行的可靠性测试显示,模型性能随时间显著衰减。Qwen3-next-80b和Qwen3-coder两个模型持续无法生成有效的工具调用,而Trinity模型在几周表现强劲后出现衰退。作者强调,聊天基准测试无法反映工具使用的可靠性,并主张频繁重新测试以防止生产环境中代理出现静默故障。 AI

影响 凸显了免费LLM在关键代理功能方面不可靠,表明频繁重新测试对于生产稳定性至关重要。

排序理由 该文章是基于个人测试对LLM性能的观点和分析,而非发布或基准测试。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Mirza Iqbal ·

    I test 8 free LLMs that involve tool usage every week.

    <p>Two of them never passed once</p> <div class="table-wrapper-paragraph"><table> <thead> <tr> <th>model</th> <th>tool-use</th> <th>streak</th> </tr> </thead> <tbody> <tr> <td>nemotron-3-super-120b (free)</td> <td>PASS</td> <td>26 clean</td> </tr> <tr> <td>owl-alpha</td> <td>PASS…