English(EN) AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments

AdaMeZO优化器通过Adam风格估计减少LLM微调的内存需求

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-01 13:31

研究人员推出AdaMeZO，这是一种新颖的优化器，旨在提高大型语言模型微调的内存效率。与需要大量GPU内存进行反向传播的传统方法不同，AdaMeZO采用零阶方法。它模仿Adam的动量估计，但没有内存开销，旨在提高现有节省内存的技术（如MeZO）的收敛速度。实验表明，AdaMeZO可以用显著更少的正向传播次数实现更好的性能。 AI

影响为LLM提供了一种更节省内存的微调方法，有可能降低研究人员和开发者的硬件要求。

排序理由该集群包含一篇arXiv预印本，详细介绍了一种用于LLM微调的新优化方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Zhijie Cai, Haolong Chen, Guangxu Zhu · 2026-05-04 04:00

AdaMeZO：一种无需维护动量的 Adam 式零阶优化器用于 LLM 微调

arXiv:2605.00650v1 Announce Type: new Abstract: Fine-tuning LLMs is necessary for various dedicated downstream tasks, but classic backpropagation-based fine-tuning methods require substantial GPU memory. To this end, a recent work, MeZO, which relies solely on forward passes to f…
arXiv cs.AI TIER_1 English(EN) · Guangxu Zhu · 2026-05-01 13:31

AdaMeZO：一种无需维护矩的Adam风格零阶优化器用于LLM微调

Fine-tuning LLMs is necessary for various dedicated downstream tasks, but classic backpropagation-based fine-tuning methods require substantial GPU memory. To this end, a recent work, MeZO, which relies solely on forward passes to fine-tune LLMs, significantly reduces GPU require…

报道来源 [2]

AdaMeZO：一种无需维护动量的 Adam 式零阶优化器用于 LLM 微调

AdaMeZO：一种无需维护矩的Adam风格零阶优化器用于LLM微调

相关实体

相关话题