WikiText-2 · PulseAugur

PALS方法通过调整层级稀疏性来改进LLM剪枝

研究人员开发了PALS（Percentile-Aware Layerwise Sparsity），一种用于剪枝大型语言模型的新颖方法。与现有的应用统一稀疏性的一次性方法不同，PALS根据激活幅度动态调整每层的稀疏性比例。这种方法在LLaMA-2-7B的困惑度方面显示出显著的改进，取得了比统一剪枝方法更好的结果。然而，其益处依赖于架构，LLaMA-3-8B仅显示边际收益，而Mistral-7B则没有显示任何收益。

RESEARCH · CL_128786 · Jul 7 · 04:00

新研究探索先进的大模型压缩技术 · 跟踪到2个来源

两篇新研究论文提出了先进的大语言模型（LLM）压缩方法，以减小其规模和计算需求。第一篇论文介绍了 Leech Lattice Vector Quantization (LLVQ)，它利用高维格实现最优球体打包，从而达到最先进的压缩性能，优于现有的 Quip# 和 QTIP 等技术。第二篇论文提出了 LACE-SVD，一个 Loss-Aware SVD 框架，该框架根据层级损失敏感度分配秩预算，并纠正残差流中的累积误差，在 LLaMA-…

TOOL · CL_117477 · Jun 30 · 04:00

新方法使用嵌入式度量知识图谱间的语义相似性

研究人员开发了一种新方法来衡量知识图谱（KGs）之间的语义相似性，解决了现有方法主要关注实体、关系和三元组的局限性。所提出的技术通过比较知识图谱的底层信息来评估图级别语义，而不是仅仅依赖结构模式。使用从文本文档派生的自定义语义匹配数据集进行的实验表明，新的基于知识图谱嵌入的方法，特别是EmbPairSim评分函数，在捕获图对图语义相似性方面优于Sentence-BERT等传统方法。

TOOL · CL_93123 · Jun 16 · 04:00

CONCORD 框架通过异步稀疏聚合增强设备-云 RAG

研究人员推出 CONCORD，一个旨在优化设备-云协作设置下的检索增强生成（RAG）的新框架。在该设置中，私有文档保留在本地设备上，而公共知识则驻留在云端。这种方法解决了现有 RAG 方法的局限性，这些方法依赖于频繁同步和密集证据传输，在实际网络条件下可能效率低下。CONCORD 采用异步稀疏聚合，将云视为间歇性的证据来源而非持续的协作者。它使用等待债务控制来管理云参与，并使用证书引导机制仅请求必要的远程证据，从而在保持答案质量的同时…

RESEARCH · CL_93580 · Jun 15 · 05:42

新的LiFT框架使用线性规划来控制Transformer过拟合

研究人员推出了一种新颖的Transformer模型微调框架LiFT，该框架利用线性规划来控制过拟合。该方法将微调表述为一个双层优化问题，联合更新模型参数和正则化超参数。通过求解线性规划，LiFT识别出一种面向验证的下降方向以进行集中更新，从而减少了广泛重新训练的需求。在WikiText-2上对GPT-2 Small进行的实验表明，LiFT能够有效地调整Transformer块和正则化参数，尤其是在易于过拟合的情况下，提高了测试困惑度。

RESEARCH · CL_79133 · Jun 6 · 00:00

Chiaroscuro Attention 通过动态令牌路由优化 Transformer 计算

研究人员开发了 CHIAR-Former，这是一种新颖的 4 层 Transformer 模型，通过动态路由令牌来优化计算使用。CHIAR-Former 不会统一应用自注意力，而是分析令牌的频谱熵，将每个令牌导向三个算子之一：DCT 频谱混合、RBF 核混合或全自注意力。这种方法在大型自然语言文本上显著提高了性能，在 WikiText-103 上实现了 45% 的困惑度改进，同时注意力 FLOPs 比标准 Transformer 减少…

RESEARCH · CL_53609 · May 26 · 16:36

Kan Extension Transformers 统一了注意力、扩散和自条件化

研究人员推出了一种名为 Kan Extension Transformers (KETs) 的新框架，该框架通过范畴论的视角统一了各种 Transformer 实现。KETs 将 Transformer 层视为加权的结构化扩展算子，涵盖了标准注意力、Geometric Transformers 和高阶单纯形情况。该框架还连接到扩散式补全，并通过作用于分离的预测载体来引入自条件机制，从而在不泄露未来 token 的情况下揭示非因果结构。…

TOOL · CL_39127 · May 19 · 13:33

Llama 3.1 8B 基准测试揭示 Apple M4 上的内存带宽瓶颈

在 Apple M4 Mac Mini（配备 16GB 统一内存）上对 Llama 3.1 8B 进行的基准测试显示，尽管 Q8_0 量化模型完全适合内存，但由于内存带宽限制，其 token 生成速度仍然很慢。分析表明，8 位权重占用了内存总线，导致 GPU 大部分时间用于数据传输而非计算。研究确定 Q4_K_M 是一个实用的最佳选择，它提供的质量几乎与 Q8_0 相同，但速度显著更快，且不会触发交换。

RESEARCH · CL_36932 · May 12 · 17:50

新的ScaleSearch方法通过优化量化提高了生成模型的效率

研究人员开发了一种名为ScaleSearch的新方法，通过量化来提高生成模型的效率。该技术优化了块浮点（BFP）格式中尺度因子的选择，将量化误差降低了高达27%。提出的ScaleSearchAttention算法与BFP集成，在因果语言建模中表现出接近零的性能损失，并在Qwen3-8B和Llama 3.1 70B等模型的准确性方面显示出显著的改进。

TOOL · CL_28353 · May 11 · 14:40

新的BCJR-QAT方法将LLM量化推向每权重2比特

研究人员开发了BCJR-QAT，一种将大型语言模型量化到每权重2比特的新颖方法，这是超越当前训练后量化技术的重大进展。这种新方法使用了维特比算法的可微分松弛，实现了量化感知训练，并在WikiText-2等基准测试中取得了更好的困惑度得分。该方法已被证明可以改进Llama-3.2-1B等模型的性能，显著优于现有方法。

RESEARCH · CL_21794 · May 7 · 15:23

新参数E可预测混合专家模型健康状况，防止专家失效。

研究人员引入了一个新的无量纲控制参数 E = T*H/(O+B)，用于预测混合专家（MoE）模型中专家生态系统的健康状况。该参数源自四个超参数，可以在无需手工设计的负载均衡损失的情况下防止“死专家”。在视觉和语言任务上的实验表明，E 值达到 0.5 或更高即可维持健康的专家生态系统，为 MoE 训练提供了一个统一的诊断工具。

TOOL · CL_20375 · May 7 · 04:00

新的MetaAdamW优化器使用自注意力实现自适应学习率

研究人员开发了MetaAdamW，这是一种新颖的优化器，通过采用自注意力机制来增强自适应学习率和权重衰减。这种基于Transformer的方法根据统计特征动态调整不同参数组的超参数，旨在克服AdamW等优化器中统一设置的局限性。跨不同任务的实验表明，MetaAdamW的性能持续优于AdamW，缩短了训练时间或提高了性能。

RESEARCH · CL_10083 · Apr 30 · 04:00

Associative-State Universal Transformers 通过稀疏检索提高参数效率

研究人员开发了 UniMatrix，一种将结构化递归与稀疏检索机制相结合的新型通用 Transformer 架构。虽然早期版本在 WikiText-2 等标准语言建模任务上显示出参数效率和具有竞争力的性能，但它们在联想回忆方面存在困难。随后的迭代 UniMatrix-SparsePointer，通过引入稀疏槽路由和指针-logit 融合，显著提高了联想回忆的准确性，在特定基准测试上以比传统 Transformer 更少的参数实现了近乎完美的性能。