实体 Quantization-Aware Training

Quantization-Aware Training

PulseAugur coverage of Quantization-Aware Training — every cluster mentioning Quantization-Aware Training across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 9

发布 · 30天

90 天内 0

论文 · 30天

90 天内 6

层级分布 · 90 天

research 4
tool 4
commentary 1

主题

关系

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

TOOL · CL_161007 · Jul 24 · 04:00

新的QATMA框架解决了开放词汇目标检测中的低比特量化挑战

研究人员开发了QATMA，一个新颖的量化感知训练框架，专门用于开放词汇目标检测（OVOD）模型。该方法解决了在极端低比特量化时发生的跨模态和模态内对齐的退化问题，这是先前针对闭词汇检测器的方法未能解决的问题。QATMA采用基于课程的学习策略，逐步量化模型的不同组件，并使用文本锚定蒸馏来保留对齐信息。实验表明，QATMA在低比特条件下显著提高了LVIS和COCO基准测试的性能。
RESEARCH · CL_119662 · Jun 30 · 10:29

新的GoodQ方法使用生成模型进行零样本目标检测器量化

研究人员开发了GoodQ，一种用于零样本量化感知训练（ZSQ-OD）的新流程，该流程利用现成的生成模型来创建训练数据集。该方法解决了目标检测模型合成数据固有的密集图像信息、类别分布不平衡和伪标签噪声等挑战。GoodQ采用信息密集型提示、内在分布感知选择和教师引导自适应降噪技术，在W4A4等低比特量化场景下以及扩展到W3A3等极端比特宽度下取得了最先进的性能。
TOOL · CL_100208 · Jun 19 · 04:00

新的CAGE方法提高了AI模型量化的准确性

研究人员推出了一种新颖的量化感知训练（QAT）方法CAGE（Curvature-Aware Gradient Estimation），旨在缩小量化模型与原生训练模型之间的准确性差距。CAGE通过引入一个源自多目标优化视角、平衡损失最小化与量化约束的弯曲感知校正项，来增强直通估计器（STE）。该方法在准确性方面取得了显著改进，在微调场景下将压缩准确性损失减半，并在应用于Llama模型时，实现了与先前4位方法相当的3位量化准确性。
SIGNIFICANT · CL_89020 · Jun 13 · 11:18

Google 发布采用量化感知训练的 Gemma 4 模型

Google 发布了其 Gemma 4 系列模型的新检查点，采用了量化感知训练（QAT）。此方法训练模型在权重被压缩到非常低的比特宽度（例如 4 位，甚至某些层的 2 位）时更加准确。目标是使这些模型能够在消费级硬件上高效运行，同时显著减小内存占用，例如 E2B 模型仅需约 1 GB。
RESEARCH · CL_76508 · Jun 7 · 19:38

新方法通过先进的 2 位和自适应量化提升 LLM 效率

研究人员开发了新的技术，通过先进的量化方法来提高大型语言模型 (LLM) 的效率。一种名为 SPEAR 的方法侧重于量化后的自适应恢复，以最小的开销减小了低比特和全精度模型之间的质量差距。另一种方法 LC-QAT 引入了一个数据高效的 2 位量化感知训练框架，该框架使用线性约束向量量化，能够用显著更少的数据进行有效训练。这些进展旨在使 LLM 的部署更具成本效益和可及性。
COMMENTARY · CL_75232 · Jun 6 · 18:02

Reddit 讨论 QAT 模型量化兼容性

Reddit 上的一篇讨论探讨了将替代量化方法用于量化感知训练 (QAT) 模型的有效性。核心问题在于，QAT 的设计目的是模拟推理时量化，是否与模型原始开发者方法以外的方法兼容。Unsloth 的基准测试表明，Gemma-4 的替代量化可以媲美 QAT 微调模型，这引发了关于此方法是否会破坏 QAT 预期目的的争论。
RESEARCH · CL_74010 · Jun 5 · 21:01

Gemma 4 QAT 模型展示更快的速度、更少的显存、相同的质量

一位用户在 AMD 7900 XTX GPU 上对 Google 的 Gemma 4 模型进行了基准测试，比较了标准量化与感知量化训练 (QAT) 版本的性能。结果表明，QAT 版本在各种模型尺寸（包括 12B、26B 和 31B 参数）下，提供了显著的速度提升和更低的显存占用，同时没有牺牲输出质量。具体而言，与标准的 Q8_0 版本相比，12B QAT 模型展示了 45% 的更快生成速度和 83% 的更高吞吐量，同时保持了相同的质量。
TOOL · CL_73927 · Jun 5 · 19:23

量化感知训练可提高低资源硬件上LLM的效率

量化感知训练（QAT）是一种用于提高量化神经网络性能的技术。它通过在训练过程中模拟量化效果，帮助模型适应降低的精度并最小化准确性损失。该方法对于在资源有限的硬件（例如具有4GB VRAM和16GB RAM的设备）上部署大型语言模型尤为重要，因为它能实现更高效的模型执行。
RESEARCH · CL_02906 · Apr 23 · 14:46

新的QAT方法弥合了移动图像增强的训练-部署鸿沟

研究人员开发了一种新的图像增强模型，旨在克服模型转换为低精度格式以用于移动设备时通常会出现的质量下降问题。所提出的方法利用了具有门控编码器块和多尺度精炼的分层网络来保持视觉细节。通过结合量化感知训练（QAT），模型在训练过程中适应低精度表示，从而减轻了标准训练后量化通常会带来的性能下降。

新的QATMA框架解决了开放词汇目标检测中的低比特量化挑战

新的GoodQ方法使用生成模型进行零样本目标检测器量化

新的CAGE方法提高了AI模型量化的准确性

Google 发布采用量化感知训练的 Gemma 4 模型

新方法通过先进的 2 位和自适应量化提升 LLM 效率

Reddit 讨论 QAT 模型量化兼容性

Gemma 4 QAT 模型展示更快的速度、更少的显存、相同的质量

量化感知训练可提高低资源硬件上LLM的效率

新的QAT方法弥合了移动图像增强的训练-部署鸿沟