实体 SmoothQuant

SmoothQuant

PulseAugur coverage of SmoothQuant — every cluster mentioning SmoothQuant across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_118048 · Jun 30 · 04:00

新的 W4A4 量化技术增强了 Wan2.2-I2V-A14B 模型的推理能力

研究人员为 Wan2.2-I2V-A14B 模型开发了一种新颖的 W4A4 量化技术，旨在提高低比特宽度硬件上的推理效率。他们的方法将激活值异常的混合精度与逐通道平滑和前馈层的块状打包相结合。该方法在 VBench I2V 指标上取得了接近 FP16 的 2-3.5% 的结果，优于原生的 HiFloat4 基线。
TOOL · CL_115676 · Jun 29 · 04:00

OpenPangu LLM 量化在 Ascend NPU 上的研究：8 位无损，4 位导致 1B 模型性能下降

一项新研究调查了在 Ascend NPU 上部署 OpenPangu 大型语言模型时，各种训练后量化方法的有效性。研究人员发现，8 位仅权重量化对于 1B 和 7B 参数模型几乎是无损的。然而，4 位量化在 1B 模型上表现出更显著的性能下降，尤其是在推理和编码任务中，而对于 7B 模型则仍然可行。研究还强调了超低精度量化的挑战，大多数 2 位和二值化设置导致性能接近随机。
RESEARCH · CL_35775 · May 17 · 18:19

llmcompressor 工具通过 FP8、GPTQ、SmoothQuant 实现 LLM 压缩

一款名为 llmcompressor 的新开源工具允许开发人员压缩和基准测试指令微调的大型语言模型。该工具演示了如何应用 FP8、GPTQ 和 SmoothQuant 等训练后量化技术。此过程旨在减小模型尺寸并提高推理速度，同时评估性能权衡。
RESEARCH · CL_01035 · Jan 18 · 00:00

优化Transformer推理：更快、更便宜的大模型技术

大型Transformer模型因其巨大的内存占用和计算成本，给推理带来了显著挑战，这些成本随输入长度呈二次方增长。研究人员和从业者正在探索各种优化技术来缓解这些问题。这些方法包括网络压缩策略，如剪枝、量化和知识蒸馏，以及架构改进和高效并行。目标是减少内存使用、计算复杂度和推理延迟，以实现实际的大规模部署。