peft · PulseAugur

LLM 微调：全量与 PEFT 方法综合指南

本文全面概述了大型语言模型 (LLM) 的微调技术。它深入探讨了全量微调和参数高效微调 (PEFT) 方法，解释了从模型权重、矩阵分解到所涉及的数学原理的底层概念。

ICML 2026 投稿量激增，关注点转向 AI 推理与安全

在首尔举行的国际机器学习大会 (ICML) 2026 收到了超过 23,000 篇论文，投稿量几乎翻倍，同时保持了 26.6% 的录用率。关键研究趋势表明，研究重点正从简单地扩展模型转向“更好思考”，更加关注 LLM 推理、AI 安全与对齐，以及通过压缩和加速技术提高模型效率。中国研究人员的引用率日益提高，并开始定义研究问题，特别是 DeepSeek 在高效模型开发和多模态 AI 方面的贡献产生了影响。

RESEARCH · CL_107815 · Jun 23 · 04:09

新研究质疑 Top-1 浓度作为扩散模型 LoRA 监控器的有效性

一篇新研究论文探讨了使用 LoRA（低秩适配）对离散扩散语言模型（DLM）进行微调的诊断工具的有效性。研究发现，常用的 top-1 argmax 浓度指标在检测训练崩溃方面并不可靠，因为它在训练早期就已饱和，并且对最终的训练稳定性不敏感。研究人员提出使用最大 LoRA 梯度范数作为更有效的参数端信号，以识别稳定的训练配置，在保留数据集上实现了 0.68 的精确率和 0.79 的 F1 分数。

TOOL · CL_102624 · Jun 21 · 12:20

QLoRA 支持在 16GB GPU 上微调 7B 模型

一种名为 QLoRA 的新技术通过将基础模型量化到 4 位精度，实现了在消费级 GPU 上微调大型语言模型。该方法显著减小了冻结基础模型的内存占用，使得一个 70 亿参数的模型能够装入 16GB GPU，且内存使用量仅为 5.44GB。虽然训练过程较慢，但 QLoRA 的主要优势在于使得在原本不足的硬件上进行大型模型微调成为可能。

TOOL · CL_102626 · Jun 21 · 12:17

LoRA 微调仅用 1% 参数即可匹配完整模型性能

一位开发者详细介绍了如何高效地微调大型语言模型。LoRA（Low-Rank Adaptation，低秩适配）通过引入可训练的适配器矩阵，仅需训练模型参数的一小部分，从而显著降低内存需求。作者成功将 LoRA 应用于一个 1.5B 参数的 Qwen2.5 模型，取得了与完整微调一个 270M 模型相当的性能，且产生的模型文件大小也大大减小。该帖子还涵盖了混合精度训练错误和 CUDA 显存不足等常见问题的故障排除，并强调了通过比较每秒处理…

TOOL · CL_106758 · Jun 20 · 23:45

MixedPEFT结合多种PEFT方法实现无监督域自适应

研究人员开发了MixedPEFT，一种用于语言模型无监督域自适应的新型参数高效方法。该方法结合了多种参数高效微调（PEFT）技术，包括可逆适配器和LoRA，以及一种混合目标训练策略。通过同时优化源域数据的分类性能和目标域数据的掩码语言建模，MixedPEFT能有效适应新域并保留目标知识。在MNLI数据集上跨20个域迁移的评估显示，与现有方法相比有显著改进，为参数高效自适应树立了新标杆。

COMMENTARY · CL_98955 · Jun 18 · 00:00

Hugging Face 探索主导性 LoRA 微调技术的替代方案

Hugging Face 的 PEFT 库提供了各种参数高效微调技术，其中低秩适配 (LoRA) 是最受欢迎的。尽管 LoRA 被广泛采用，但该博文质疑其主导地位是源于卓越的性能，还是由广泛的教程和支持驱动的自我强化的人气。文章探讨了可能提供更好性能的替代 PEFT 方法，暗示用户可能忽略了更有效的技术。

TOOL · CL_104388 · Jun 17 · 12:24

Qwen3.6-27b 针对编码代理进行微调后以 AGPL-3.0 发布

Qwen3.6-27B 的一个微调版本，名为 hotdogs/qwen3.6-27b-fable5-lora，已在 Hugging Face 上发布。该模型专门用于自主编码代理行为，集成了工具使用、多步推理和代码生成能力。它基于 Glint-Research/Fable-5-traces，并因其衍生性质以 AGPL-3.0 许可证分发。该模型由 18 岁的编码员 UKA 开发，使用了 RTX 4090 和 vast.ai。

TOOL · CL_92407 · Jun 15 · 17:29

Hugging Face Transformers 库获得补丁更新

Hugging Face 发布了其 Transformers 库的补丁版本，修复了若干问题。v5.12.1 版本包括对 PEFT 下限的更新，以及在安装 `mistral-common` 时修复 Mistral 分词器的问题。稍早发布的 v5.10.3 版本除了包含后来也纳入 v5.12.1 的 PEFT 和 Mistral 分词器修复外，还包含对 vLLM 同步、ProcessorMixin、InternVL 模型和处理偏移量的修复。

RESEARCH · CL_80583 · Jun 9 · 09:04

NeuroBait 微调 Gemma 3 以激发ADHD任务启动的多巴胺

一位开发者微调了Google的Gemma 3 12B模型，命名为NeuroBait，以帮助ADHD患者克服任务启动瘫痪。与提供待办事项列表的典型ADHD工具不同，NeuroBait旨在通过提供基于用户即时情境的简短、温暖和鼓励性的提示来提供多巴胺提升。该模型在一个自定义数据集上进行了训练，并部署在Hugging Face Spaces上，同时计划发布权重和管道以供社区开发。

RESEARCH · CL_82220 · Jun 9 · 07:03

新的PEFT方法以“平坦度偏好”为目标，以获得更好的泛化能力

研究人员在参数高效微调（PEFT）方法中发现了一种“平坦度偏好”，表明一小部分维度对泛化能力有显著影响。他们提出了平坦度偏好优化（FlatPO）方法，以专门针对并压平这些关键维度，旨在提高模型的整体泛化能力。实验表明，这种方法增强了各种PEFT技术的有效性。

TOOL · CL_71039 · Jun 4 · 11:39

LLM 微调：全参数微调 vs LoRA vs QLoRA 详解

本文比较了三种大型语言模型（LLM）的微调方法：全参数微调（Full Fine-tuning）、LoRA 和 QLoRA。全参数微调会修改模型的所有权重，具有最高的潜在质量，但需要大量的计算资源。LoRA 和 QLoRA 是参数高效微调（PEFT）方法，仅训练一小部分参数，可大幅降低资源需求。QLoRA 通过使用 4 位量化进一步优化，可在单个 GPU 上进行微调，使其成为预算有限团队的实用选择。

RESEARCH · CL_68589 · Jun 2 · 16:19

研究探讨低资源视频模型适应中的时间上下文

研究人员对用于视频理解任务的基础模型适应进行了系统性研究，特别是在低资源场景下。该研究调查了参数高效微调（PEFT）和探测方法，并比较了适应预训练图像模型的方法与直接适应视频表示的方法。主要发现强调了在数据有限的情况下，策略性地将时间上下文分布在不同模型组件中的重要性，以实现有效的视频适应。

TOOL · CL_63350 · Jun 1 · 10:09

Helmholtz Imaging 将在 HAICON26 上举办研讨会

Helmholtz Imaging 团队正在为即将举行的 HAICON26 会议做准备。他们将于 8 月 6 日举办两场研讨会。第一场研讨会题为“PixelPatrol & Helmholtz Model Zoo”，将涵盖特定的成像模型。第二场研讨会将提供关于参数高效微调 (PEFT) 及相关技术的实践指南。

RESEARCH · CL_65078 · Jun 1 · 00:00

PEFT适配器可实现数百万个个性化万亿参数模型

一篇新的研究论文探讨了参数高效微调（PEFT）的潜力，超越了其作为完全微调的成本节约替代品的典型用途。作者提出，PEFT适配器可以作为持久的本地状态，使强大的基础模型能够发展出实例特定的行为，如偏好、技能和记忆。该研究围绕三个扩展维度组织这一概念：增强共享先验知识，在保持可靠性的同时减小适配器尺寸，以及管理众多共存的适配实例。

TOOL · CL_58463 · May 29 · 06:32

Nexus Labs 通过在单个 Llama 3.1 模型上服务 40 个 LoRA 适配器来降低成本

Nexus Labs 开发了一种经济高效的方法，可以在单个基础模型上服务多个 LoRA 适配器，从而显著降低基础设施成本。通过利用 vLLM 的多 LoRA 服务功能，他们将 40 个客户特定的适配器整合到两个 A100 GPU 上，将月成本从估计的 24,000 美元削减到一小部分。虽然这种方法会带来少量的延迟成本，并且需要仔细评估以确保输出一致性，但对于满足不同客户需求的企业部署来说，它被证明非常高效。

RESEARCH · CL_40249 · May 20 · 07:14

开发者使用 QLoRA 在 3GB GPU 上微调 LLM

开发者可以使用 QLoRA 和 NF4 量化等技术，在仅需 3 GB GPU 内存的消费级硬件上微调 TinyLlama 等大型语言模型。此过程仅训练模型的一小部分参数，显著降低了计算需求。尽管该过程可能很复杂，在调试、提示格式化和依赖管理方面存在挑战，但它为独立开发者构建复杂的 AI 应用程序提供了一条途径。

TOOL · CL_29415 · May 12 · 16:21

研究人员探索PEFT模块在文本生成中的输出组合

研究人员探索了将参数高效微调（PEFT）技术推广到单一任务应用之外的方法。他们的工作研究了在组合数据集上进行训练、组合单独PEFT模块的权重矩阵以及在推理过程中组合这些模块的输出来实现这一目标。研究发现，对PEFT模块输出进行求和是一种特别有效的组合方法，在不同的LLM和受控文本生成任务中，其表现优于或匹配其他方法。

TOOL · CL_28343 · May 11 · 15:44

新的 AdaPaD 方法提高了大型语言模型 PEFT 的效率

研究人员推出了一种新颖的方法 AdaPaD，用于使用参数高效微调 (PEFT) 来高效微调大型语言模型。AdaPaD 同时训练所有秩-1 组件，每个组件针对一个在其他组件的估计值改进时会自我校正的分解目标进行优化。这种方法可以实现指数级衰减的误差，并允许动态秩发现，使秩分布成为输出而不是固定输入。

TOOL · CL_22630 · May 8 · 07:54

临床 AI 在 AMD 硬件上微调，绕过 CUDA 依赖

一个项目已成功在 AMD 硬件和 ROCm 上微调了临床 AI 模型 MedQA，证明了在没有 NVIDIA 的 CUDA 的情况下也可以进行高级 AI 开发。微调过程使用了 Qwen3-1.7B 模型和 MedMCQA 数据集，仅在 AMD Instinct MI300X 上花费了五分钟就取得了成果。这项工作突显了 Hugging Face 生态系统与 ROCm 的兼容性，可能拓宽 AI 开发工具的可及性。