实体
Qwen3-coder
Qwen3-coder
PulseAugur coverage of Qwen3-coder — every cluster mentioning Qwen3-coder across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
免费LLM的工具使用可靠性每周都在下降,需要持续重新测试
免费LLM的端点,即使名称保持一致,其在工具使用任务上的可靠性也会随着时间推移而悄然下降。每周的测试方案对于识别这些无声的故障至关重要,因为聊天基准分数并不能反映模型持续生成有效函数调用的能力。像Qwen3-next-80b和Qwen3-coder这样的模型在最近的工具使用测试中表现为零成功,而Nemotron目前则显示出高可靠性。
-
免费LLM工具使用不可靠,性能衰减快
每周对支持工具使用的免费LLM进行的可靠性测试显示,模型性能随时间显著衰减。Qwen3-next-80b和Qwen3-coder两个模型持续无法生成有效的工具调用,而Trinity模型在几周表现强劲后出现衰退。作者强调,聊天基准测试无法反映工具使用的可靠性,并主张频繁重新测试以防止生产环境中代理出现静默故障。