PulseAugur
实时 22:09:52
实体 tool-eval-bench

tool-eval-bench

PulseAugur coverage of tool-eval-bench — every cluster mentioning tool-eval-bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_78690 ·

    Qwen3.6-35B-A3B 基准测试显示量化结果好坏参半

    一项对 Qwen3.6-35B-A3B 模型量化(特别是 ByteShape 和 Unsloth)的基准测试显示,两者之间没有明显的赢家。研究还发现,使用 q8_0 KV 缓存量化在没有明显缺点的情况下提供了性能优势,而 q4_0 则导致性能明显下降。在所有测试场景中,当处理长上下文时,性能显著下降,这表明在扩展对话中工具调用能力面临挑战。