PulseAugur
实时 18:20:53
实体 Qwen3-coder

Qwen3-coder

PulseAugur coverage of Qwen3-coder — every cluster mentioning Qwen3-coder across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. COMMENTARY · CL_64077 ·

    免费LLM的工具使用可靠性每周都在下降,需要持续重新测试

    免费LLM的端点,即使名称保持一致,其在工具使用任务上的可靠性也会随着时间推移而悄然下降。每周的测试方案对于识别这些无声的故障至关重要,因为聊天基准分数并不能反映模型持续生成有效函数调用的能力。像Qwen3-next-80b和Qwen3-coder这样的模型在最近的工具使用测试中表现为零成功,而Nemotron目前则显示出高可靠性。

  2. COMMENTARY · CL_63965 ·

    免费LLM工具使用不可靠,性能衰减快

    每周对支持工具使用的免费LLM进行的可靠性测试显示,模型性能随时间显著衰减。Qwen3-next-80b和Qwen3-coder两个模型持续无法生成有效的工具调用,而Trinity模型在几周表现强劲后出现衰退。作者强调,聊天基准测试无法反映工具使用的可靠性,并主张频繁重新测试以防止生产环境中代理出现静默故障。