实体 bitsandbytes

bitsandbytes

PulseAugur coverage of bitsandbytes — every cluster mentioning bitsandbytes across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 3

层级分布 · 90 天

research 2
tool 4
commentary 1

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

TOOL · CL_102624 · Jun 21 · 12:20

QLoRA 支持在 16GB GPU 上微调 7B 模型

一种名为 QLoRA 的新技术通过将基础模型量化到 4 位精度，实现了在消费级 GPU 上微调大型语言模型。该方法显著减小了冻结基础模型的内存占用，使得一个 70 亿参数的模型能够装入 16GB GPU，且内存使用量仅为 5.44GB。虽然训练过程较慢，但 QLoRA 的主要优势在于使得在原本不足的硬件上进行大型模型微调成为可能。
TOOL · CL_45371 · May 23 · 00:55

通过优化 KV 缓存和量化来修复本地 LLM OOM 错误

即使模型的权重似乎适合可用 VRAM，在本地运行大型开源语言模型也可能导致内存不足错误。这主要是由于 KV 缓存（其大小随上下文长度而变化）和推理过程中的中间激活内存需要大量内存。开发人员可以通过使用 PyTorch 的内存快照等工具分析内存使用情况、对模型权重和 KV 缓存应用适当的量化技术以及管理内存碎片来解决这些问题。
TOOL · CL_44843 · May 22 · 04:00

量化研究使更小、更准确的Whisper-small ASR成为可能

一篇新发布的arXiv研究论文评估了用于Whisper-small自动语音识别模型的各种训练后量化（PTQ）技术。该研究测试了PyTorch、Optimum-Quanto、HQQ和bitsandbytes等库，发现使用Quanto的动态int8量化在压缩和准确性之间取得了最佳平衡。该方法将模型大小减少了57%，同时在LibriSpeech数据集上略微提高了词错误率，使得Whisper-small更容易部署在资源受限的设备上。
COMMENTARY · CL_42826 · May 21 · 16:30

4 位量化是本地 LLM 的实用最佳选择

对于大多数在本地运行大型语言模型（LLM）的用户来说，4 位量化在性能和质量之间提供了实用的平衡，与 8 位相比显著降低了 VRAM 需求。虽然 4 位模型在复杂任务上的推理能力可能略有下降，但在文本生成和指令遵循方面几乎没有变化。这种方法对于在消费级硬件上进行交互式聊天和典型生产工作负载尤其有利，能够加快推理速度，并使在性能较低的 GPU 上也能运行更大的模型。
RESEARCH · CL_40249 · May 20 · 07:14

开发者使用 QLoRA 在 3GB GPU 上微调 LLM

开发者可以使用 QLoRA 和 NF4 量化等技术，在仅需 3 GB GPU 内存的消费级硬件上微调 TinyLlama 等大型语言模型。此过程仅训练模型的一小部分参数，显著降低了计算需求。尽管该过程可能很复杂，在调试、提示格式化和依赖管理方面存在挑战，但它为独立开发者构建复杂的 AI 应用程序提供了一条途径。
RESEARCH · CL_10091 · Apr 30 · 04:00

量化影响大语言模型事实回忆，不同模型和方法效果各异

一篇新论文研究了用于压缩大语言模型的量化技术如何影响其回忆事实知识的能力。研究人员发现，虽然量化通常会导致信息丢失和事实回忆能力下降，尤其是在较小的模型中，但影响通常不大。有趣的是，量化并不总是会降低性能，有时甚至可以提高事实回忆能力，其中BitSandBytes在保留原始模型能力方面表现最佳。
RESEARCH · CL_01274 · May 24 · 00:00

Hugging Face 推出用于高效 LLM 的先进量化技术

研究人员正在开发先进的量化技术，以提高大型语言模型 (LLM) 的效率。AutoRound、LATMiX 和 GSQ 等新方法旨在减小模型大小和计算需求，从而能够在功能较弱的硬件上进行部署。这些方法侧重于优化模型权重和激活在较低比特宽度下的表示方式，其中一些方法已达到与更高精度模型相当的准确性。创新包括用于训练后量化的新颖校准策略和用于提高鲁棒性的可学习仿射变换。