LLaMA-2 7B · PulseAugur

PALS方法通过调整层级稀疏性来改进LLM剪枝

研究人员开发了PALS（Percentile-Aware Layerwise Sparsity），一种用于剪枝大型语言模型的新颖方法。与现有的应用统一稀疏性的一次性方法不同，PALS根据激活幅度动态调整每层的稀疏性比例。这种方法在LLaMA-2-7B的困惑度方面显示出显著的改进，取得了比统一剪枝方法更好的结果。然而，其益处依赖于架构，LLaMA-3-8B仅显示边际收益，而Mistral-7B则没有显示任何收益。

TOOL · CL_106820 · Jun 22 · 16:33

新的SVD-Surgeon方法无需重新训练即可优化LLM压缩

研究人员开发了SVD-Surgeon，一种新颖的、无需训练即可使用奇异值分解（SVD）压缩大型语言模型（LLM）的方法。该技术直接优化奇异值，提供一种封闭形式的更新，以补偿移除的组件并识别要修剪的值。当应用于现有的SVD压缩器（如SVD-LLM）时，SVD-Surgeon在不重新训练的情况下，提高了OPT和LLaMA 2-7B等模型的困惑度-压缩权衡。

RESEARCH · CL_70422 · Jun 3 · 15:39

新的 TaDA 算法使用深度感知门控来合并 LoRA 适配器

研究人员推出了一种新算法 TaDA，用于合并 Transformer 模型中特定任务和特定领域的 LoRA 适配器。与之前应用统一权重的方法不同，TaDA 利用了任务和领域信号之间观察到的深度依赖不对称性。该算法使用校准的探针引导门控进行每层加权和子空间感知合并，以有效地组合适配器组件。这种无需训练的方法会产生一个标准的 LoRA 适配器，没有推理开销，并在科学问答和图像分类基准测试中表现出卓越的性能。

RESEARCH · CL_63012 · Jun 1 · 04:00

新研究应对AI的灾难性遗忘问题

多篇研究论文探讨了持续学习的先进技术，旨在防止AI模型的灾难性遗忘。一种方法“经验混合”（Experience Blending, EB）使用生成的“支持边界数据”来丰富决策边界并提高图像分类等任务的准确性。另一种方法TeLAPA通过组织多样化的策略邻域而非依赖单一演进策略来解决持续强化学习问题，从而增强适应性和重用性。其他研究则探讨了任务粒度对遗忘的影响，提出了用于监控大型预训练模型在线学习的LargeMonitor等框架，并引入了…

RESEARCH · CL_50600 · May 25 · 14:06

新研究探讨Transformer模型的量化优势

两篇新研究论文探讨了提高Transformer模型效率的方法，特别是在边缘设备上部署方面。第一篇论文介绍了OrpQuant，一个无乘法器、二的幂量化的框架，将LLaMA-2-7B等模型的校准时间缩短至约15分钟。第二篇论文研究了残差自由Transformer，证明它们通过保持近乎高斯激活，比传统残差模型对低比特量化表现出更强的鲁棒性。

RESEARCH · CL_48592 · May 22 · 02:43

新的SymNoise方法提升LLM微调性能

研究人员推出了一种名为SymNoise的新型语言模型微调方法，该方法利用嵌入中的对称噪声。该技术旨在通过更精确地调节局部曲率来提高模型性能，优于现有的最先进方法NEFTune。在实验中，SymNoise将使用Alpaca微调的LLaMA-2-7B的AlpacaEval分数从29.79%显著提升至69.04%，比NEFTune的64.69%提高了6.7%。该方法在各种模型和数据集上均持续优于NEFTune。

RESEARCH · CL_48868 · May 21 · 22:23

新方法提升LLM量化效率与准确性

研究人员开发了多种新方法来提高大型语言模型（LLM）量化的效率和准确性。这些技术旨在减少LLM的内存占用和计算成本，使其更容易部署在资源受限的设备上。创新包括混合专家（MoE）模型的无校准比特分配、利用量化漏洞的异常值注入以及硬件友好的混合精度量化框架。

RESEARCH · CL_48735 · May 21 · 21:36

文化演化理论解释模型崩溃

研究人员将模型崩溃（大型语言模型在训练自身输出来进行训练时会退化）这一现象重新解读为一种文化演化过程。通过应用迭代学习理论，他们使用LLaMA-2-7B和Mistral-7B模型在多种语言上推导并测试了五个预测。一个关键发现是，在未经筛选的自训练过程中，组合性最初会增加然后减少，这种模式即使在正则化数据下也持续存在，并且只有通过任务基础的筛选才能缓解。

TOOL · CL_42492 · May 20 · 16:45

新指标揭示语言模型如何处理隐喻

研究人员开发了一种名为条件尺度熵（CSE）的新指标，用于分析仅解码器语言模型如何处理隐喻。CSE 衡量了 Transformer 层内不同频率尺度上的计算参与广度。使用 CSE 进行的研究表明，在参数量从 1.24 亿到 200 亿不等的模型中，包括 GPT-2、LLaMA-2 和 GPT-oss 等架构，隐喻性词元相比字面性词元始终激活更广泛的计算尺度。

TOOL · CL_40773 · May 19 · 15:15

新方法利用序列熵变化检测对抗性LLM提示

研究人员开发了一种名为CPD Online的新方法来检测试图越狱大型语言模型的对抗性提示。该技术将提示检测视为在线变化点检测问题，分析模型令牌预测中的序列熵变化。CPD Online不依赖于特定模型，无需训练，并且能够精确定位恶意提示的开始，在各种开源模型上表现优于现有的困惑度检测器。

RESEARCH · CL_38164 · May 18 · 15:20

新的探测方法揭示 Llama 2 表示中的概念流形

研究人员开发了一种名为流形探测器（Manifold Probe）的新方法，用于识别和理解概念在人工智能模型中的表示方式。该技术将线性回归探测器扩展到发现和学习用于编码特定特征的方向。当应用于 Llama 2-7b 时，流形探测器成功识别了时间和空间的概念流形，并且操纵时间流形会影响模型关于文化作品发布日期的输出。

TOOL · CL_22110 · May 8 · 04:00

新研究量化了压缩Transformer中的误差传播

研究人员开发了一种方法，以更好地理解和管理压缩Transformer模型中的误差传播。通过测量每层输出与输入误差之比（rho），他们发现误差会可预测地累积，解释了为什么压缩早期层会更具破坏性。该分析还揭示了层内组件敏感性存在显著差异，表明重要性分数在不同模型架构之间转移不佳。该研究提出了一种无需训练的方法，利用这些压缩配置文件来指导在层内何处进行压缩以及完全移除哪些层，从而在不显著损失性能的情况下提高效率。

RESEARCH · CL_15961 · May 5 · 04:00

新方法通过高效的稀疏化、量化和压缩来加速大型语言模型

研究人员开发了几种新的方法来压缩和优化大型语言模型（LLMs），以提高效率并降低计算成本。SparseForge 通过优化稀疏掩码来专注于高效的半结构化稀疏化，以显著更少的重新训练 token 实现高精度。FASQ 引入了灵活的加速子空间量化，能够在没有校准数据的情况下实现连续的压缩级别，并在商品 GPU 上在准确性和速度方面均优于现有方法。此外，CoSpaDi 使用校准引导的稀疏字典学习进行结构化分解，改善了精度-压缩权衡。另一种方…

RESEARCH · CL_06666 · Apr 28 · 04:00

新研究揭示LLM前馈层中的关键损失通道

研究人员在大型语言模型（LLM）的前馈层中识别出一种特定的组织结构，称为“超级节点”（supernodes）和“光环”（halos）。这些超级节点代表了模型性能的关键通道的一小部分，却占有显著的损失敏感性。该研究分析了Llama-3.1-8B和Mistral-7B等模型，发现保留这些关键通道对于有效的模型剪枝和保持性能至关重要。

RESEARCH · CL_06298 · Apr 26 · 19:16

LLM大脑对齐随训练数据和任务特异性而变化

研究人员正在探索大型语言模型（LLM）如何在不同语言和任务中与人类大脑活动对齐。研究表明，LLM的中间层最能预测大脑反应，并且这种对齐受训练数据语言主导地位的影响，而非模型本身的类型。此外，经过指令微调的多模态LLM表现出更强的大脑对齐能力，尤其是在围绕特定任务需求而非仅仅表面语义进行组织时。

RESEARCH · CL_36289 · May 28 · 00:00

LLM 推理和推理技术随着新研究和硬件的进步而发展

研究人员正在探索新的方法来提高大型语言模型 (LLM) 的效率和推理能力。Google Research 正在开发训练 LLM 以贝叶斯方式进行推理的技术，从而提高它们更新概率估计和泛化到新任务的能力。同时，推理优化方面的进展包括“投机级联”，它将更小、更快的模型与更大的模型结合起来，以及“上下文回收”来管理长对话范围。此外，正在开发“级联多粒度剪枝”和“SharQ”等方法来压缩 LLM 以进行设备上推理，从而在保持准确性的同时降低延…