实体 Activation Aware Quantization

Activation Aware Quantization

PulseAugur coverage of Activation Aware Quantization — every cluster mentioning Activation Aware Quantization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 15

发布 · 30天

90 天内 0

论文 · 30天

90 天内 7

层级分布 · 90 天

research 6
tool 7
commentary 2

主题

情绪 · 30 天

6 天有情绪数据

最近 · 第 1/1 页 · 共 15 条

TOOL · CL_133678 · Jul 9 · 07:02

量化技术将LLM缩小75%以供本地使用，平衡大小与质量

量化是将大型语言模型（LLM）缩小并降低其内存需求的关键技术，使其能在消费级硬件上使用。该过程涉及使用更少的比特（例如4位或8位）来表示模型参数，可以将模型大小缩小高达75%。然而，朴素的量化可能会因异常权重和累积误差而降低模型质量，这促使了GPTQ和AWQ等更复杂方法的出现，这些方法使用小型数据集校准量化以最小化误差。GGUF等格式（与llama.cpp一起使用）为CPU和混合推理提供了各种量化级别。
COMMENTARY · CL_130187 · Jul 7 · 13:01

自托管 LLM 将成本转移到持续评估上

自托管开源大型语言模型将主要成本从 API 使用转移到持续的模型评估工作。量化是减少模型本地使用大小的常用技术，但可能会在推理和长上下文检索等关键任务上微妙地降低性能。此外，推理引擎（如 vLLM 或 TGI）的选择也会以不易察觉的方式改变模型行为。与维护持续评估流程的托管模型提供商不同，大多数自托管团队只测试模型一次，这可能导致性能随着时间的推移而下降而未被发现。
TOOL · CL_122053 · Jul 2 · 13:31

优化 SLM 服务：AWQ、GPTQ、GGUF 和动态 LoRA

本文探讨了为企业环境优化小型语言模型（SLM）的服务，重点关注降低延迟、提高并发性和最小化成本。文章比较了三种量化格式：AWQ、GPTQ 和 GGUF，并推荐 AWQ，因为它在 GPU 上实现了准确性和速度的平衡。文章还详细介绍了如何使用 vLLM 实现动态 LoRA 服务，以有效地管理共享基础设施上多个微调模型的行为，从而减少 VRAM 使用量和计算成本。
TOOL · CL_115676 · Jun 29 · 04:00

OpenPangu LLM 量化在 Ascend NPU 上的研究：8 位无损，4 位导致 1B 模型性能下降

一项新研究调查了在 Ascend NPU 上部署 OpenPangu 大型语言模型时，各种训练后量化方法的有效性。研究人员发现，8 位仅权重量化对于 1B 和 7B 参数模型几乎是无损的。然而，4 位量化在 1B 模型上表现出更显著的性能下降，尤其是在推理和编码任务中，而对于 7B 模型则仍然可行。研究还强调了超低精度量化的挑战，大多数 2 位和二值化设置导致性能接近随机。
TOOL · CL_110111 · Jun 24 · 21:23

GLM-5.2 speculative decode runs on 4x DGX GB10 cluster

一位用户成功在 4x DGX GB10 集群上实现了 GLM-5.2 和 MTP 投机解码，实现了约 9.4 tokens/秒的吞吐量。这涉及到从公共内核重建缺失的构建修改，并确保使用特定的 vLLM 参考提交以避免权重加载错误。用户还详细介绍了优化设置的步骤，包括一种无数据剪枝方法以将模型装入内存，以及关于多节点性能网络配置的说明。
COMMENTARY · CL_86313 · Jun 11 · 22:29

用户寻求优化 MI50 GPU 上 Qwen 3.5 9B 推理的帮助

一位用户正在寻求帮助，以便在 MI50 32GB GPU 上为 Qwen 3.5 9B 模型配置以实现最佳本地推理。在使用特定的 vLLM 分支时，他们遇到的速度很慢，低于每秒 1 个 token。用户正在寻求指导以提高性能，并可能设置一个视觉/文本到文本模型或 Gemma 4 变体。
TOOL · CL_84316 · Jun 11 · 01:13

大语言模型量化格式：GGUF、GPTQ、AWQ 和 NF4 对比

本文比较了四种主要的大语言模型（LLM）权重量化格式：GGUF、GPTQ、AWQ 和 NF4。量化对于减小模型尺寸以适应有限的硬件限制（如消费级 GPU 或统一内存系统）至关重要。每种格式在内存占用、推理速度和准确性之间提供了不同的权衡，使其适用于特定的部署场景。
RESEARCH · CL_50600 · May 25 · 14:06

新研究探讨Transformer模型的量化优势

两篇新研究论文探讨了提高Transformer模型效率的方法，特别是在边缘设备上部署方面。第一篇论文介绍了OrpQuant，一个无乘法器、二的幂量化的框架，将LLaMA-2-7B等模型的校准时间缩短至约15分钟。第二篇论文研究了残差自由Transformer，证明它们通过保持近乎高斯激活，比传统残差模型对低比特量化表现出更强的鲁棒性。
RESEARCH · CL_48868 · May 21 · 22:23

新方法提升LLM量化效率与准确性

研究人员开发了多种新方法来提高大型语言模型（LLM）量化的效率和准确性。这些技术旨在减少LLM的内存占用和计算成本，使其更容易部署在资源受限的设备上。创新包括混合专家（MoE）模型的无校准比特分配、利用量化漏洞的异常值注入以及硬件友好的混合精度量化框架。
TOOL · CL_27223 · May 11 · 21:34

ExLlamaV3、Unsloth Qwen 和 Phi3 代理迎来重大本地 AI 更新

本周的本地 AI 新闻重点介绍了 ExLlamaV3 推理库的重大更新，提高了在消费级 GPU 上运行量化 Llama 模型时的效率。此外，通过 Unsloth 提供了 Qwen 3.6 模型的新 GGUF 量化版本，使其更容易在本地使用。该集群还展示了一个创新项目，该项目使用 Phi3 模型创建一个能够控制用户主计算机的自主代理。
RESEARCH · CL_23571 · May 8 · 21:34

本地AI工具通过新的预测和解码技术提升LLM速度

本地AI社区的最新更新正在提高推理速度，并为开放权重模型提供实际的基准测试。llama.cpp项目现已支持多令牌预测（MTP），该技术在消费级硬件上使Gemma 26B模型的速度提升了40%。另外，vLLM利用DFlash推测解码，使Gemma 4 26B模型在RTX 5090 GPU上达到了每秒600个令牌的速度。此外，Ollama社区发布了Qwen和DeepSeek编码模型在本地开发任务上的比较基准测试。
RESEARCH · CL_15961 · May 5 · 04:00

新方法通过高效的稀疏化、量化和压缩来加速大型语言模型

研究人员开发了几种新的方法来压缩和优化大型语言模型（LLMs），以提高效率并降低计算成本。SparseForge 通过优化稀疏掩码来专注于高效的半结构化稀疏化，以显著更少的重新训练 token 实现高精度。FASQ 引入了灵活的加速子空间量化，能够在没有校准数据的情况下实现连续的压缩级别，并在商品 GPU 上在准确性和速度方面均优于现有方法。此外，CoSpaDi 使用校准引导的稀疏字典学习进行结构化分解，改善了精度-压缩权衡。另一种方…
RESEARCH · CL_14463 · Apr 27 · 04:00

新研究探讨大语言模型安全、效率和训练优化

研究人员正在开发新的方法来提高大语言模型（LLMs）的效率和安全性。一种名为“Widening the Gap”的方法利用了异常值注入来破坏LLM量化，证明安全风险已延伸到AWQ和GPTQ等先进量化技术。同时，其他研究则专注于通过自适应量化（XFP）、设备-边缘协作的推测解码（GELATO）以及高效的KV缓存管理（SparKV、Feather、Dooly）来优化LLM推理。此外，新的框架正在涌现，用于分析LLM推理的稳定性（Queue…
RESEARCH · CL_01274 · May 24 · 00:00

Hugging Face 推出用于高效 LLM 的先进量化技术

研究人员正在开发先进的量化技术，以提高大型语言模型 (LLM) 的效率。AutoRound、LATMiX 和 GSQ 等新方法旨在减小模型大小和计算需求，从而能够在功能较弱的硬件上进行部署。这些方法侧重于优化模型权重和激活在较低比特宽度下的表示方式，其中一些方法已达到与更高精度模型相当的准确性。创新包括用于训练后量化的新颖校准策略和用于提高鲁棒性的可学习仿射变换。
RESEARCH · CL_01035 · Jan 18 · 00:00

优化Transformer推理：更快、更便宜的大模型技术

大型Transformer模型因其巨大的内存占用和计算成本，给推理带来了显著挑战，这些成本随输入长度呈二次方增长。研究人员和从业者正在探索各种优化技术来缓解这些问题。这些方法包括网络压缩策略，如剪枝、量化和知识蒸馏，以及架构改进和高效并行。目标是减少内存使用、计算复杂度和推理延迟，以实现实际的大规模部署。

量化技术将LLM缩小75%以供本地使用，平衡大小与质量

自托管 LLM 将成本转移到持续评估上

优化 SLM 服务：AWQ、GPTQ、GGUF 和动态 LoRA

OpenPangu LLM 量化在 Ascend NPU 上的研究：8 位无损，4 位导致 1B 模型性能下降

GLM-5.2 speculative decode runs on 4x DGX GB10 cluster

用户寻求优化 MI50 GPU 上 Qwen 3.5 9B 推理的帮助

大语言模型量化格式：GGUF、GPTQ、AWQ 和 NF4 对比

新研究探讨Transformer模型的量化优势

新方法提升LLM量化效率与准确性

ExLlamaV3、Unsloth Qwen 和 Phi3 代理迎来重大本地 AI 更新

本地AI工具通过新的预测和解码技术提升LLM速度

新方法通过高效的稀疏化、量化和压缩来加速大型语言模型

新研究探讨大语言模型安全、效率和训练优化

Hugging Face 推出用于高效 LLM 的先进量化技术

优化Transformer推理：更快、更便宜的大模型技术