实体 tool-eval-bench

tool-eval-bench

PulseAugur coverage of tool-eval-bench — every cluster mentioning tool-eval-bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_78690 · Jun 8 · 19:52

Qwen3.6-35B-A3B 基准测试显示量化结果好坏参半

一项对 Qwen3.6-35B-A3B 模型量化（特别是 ByteShape 和 Unsloth）的基准测试显示，两者之间没有明显的赢家。研究还发现，使用 q8_0 KV 缓存量化在没有明显缺点的情况下提供了性能优势，而 q4_0 则导致性能明显下降。在所有测试场景中，当处理长上下文时，性能显著下降，这表明在扩展对话中工具调用能力面临挑战。