Imagenet 1k · PulseAugur

新的SLORR框架以最小的开销增强了神经网络的可压缩性

研究人员推出了一种新颖的SLORR框架，旨在提高神经网络的可压缩性而不牺牲准确性。该方法提供了一种简单、无状态且保留架构的训练中低秩正则化方法。SLORR通过使用GPU友好的近似方法进行正则化传递来实现这一点，在ImageNet-1K等任务上展示了不到8%的训练开销，在大语言模型预训练中开销甚至不到1%。

TOOL · CL_133582 · Jul 9 · 04:00

新的ELO算法增强了学习型优化器在长时域任务上的性能

研究人员开发了一种新的元训练算法，称为高效长时域（ELO）学习，以解决当前学习型优化器（LOs）的局限性。ELO通过将计算重新分配到更长的失败模式，并提供解耦的渐进式专家监督来稳定学习信号，从而有效地将元训练扩展到长时域的内部问题。这种方法提高了LOs在语言建模和图像分类等下游任务上的性能和分布外泛化能力，ELO训练的优化器持续优于AdamW，并与Muon竞争。

RESEARCH · CL_133243 · Jul 8 · 04:03

EdgeCompress框架为边缘设备大幅削减CNN计算量

研究人员开发了EdgeCompress，一个新颖的框架，旨在显著降低卷积神经网络（CNN）的计算需求，以便在资源受限的边缘设备上部署。该框架采用动态图像裁剪来将计算集中在显著的前景对象上，并采用复合收缩技术协同压缩网络深度、宽度和分辨率。此外，EdgeCompress利用动态推理方法，将不同复杂度的模型级联起来，根据输入的识别难度自适应地处理输入，从而进一步提高效率。

TOOL · CL_131503 · Jul 8 · 04:00

新参数无关专家路由方法揭晓，适用于MoE模型

研究人员推出了一种新颖的参数无关方法Self-Routing，用于混合专家（MoE）层，无需专门学习的路由器。该方法直接利用token的隐藏状态子空间将token分配给专家，简化了MoE架构。在语言建模和ImageNet-1K分类上的评估表明，Self-Routing在性能上与学习型路由器相当，提供了更均衡的专家利用率，并消除了路由参数。

RESEARCH · CL_133251 · Jul 8 · 02:12

Smart Scissor 框架在提高精度的同时降低了CNN的成本

研究人员开发了“Smart Scissor”，一个旨在提高卷积神经网络（CNN）在嵌入式硬件上效率的新框架。该方法通过动态裁剪前景对象来解决图像中的空间冗余，保留了简单分辨率缩放可能丢失的关键细节。此外，它通过压缩深度、宽度和分辨率的复合收缩策略来解决CNN中的计算冗余。实验表明，Smart Scissor 将 ResNet50 的计算成本降低了 41.5%，同时将准确率提高了 0.3%，优于最先进的 HRank 框架。

TOOL · CL_129422 · Jul 7 · 04:00

新型视觉SSM消除方向扫描，提升图像识别能力

研究人员推出了一种新颖的二阶非因果状态空间模型（SSM），名为Vision Non-Causal Trapezoidal Mamba (VNCT)，专为视觉识别任务设计。与依赖方向性标记扫描的先前视觉SSM不同，VNCT在单次传递中同时处理所有图像标记，消除了方向偏差并降低了推理延迟。这种方法产生了更具方向鲁棒性的表示，从而在ImageNet-1K分类、COCO目标检测和ADE20K语义分割等基准测试中取得了更好的性能，尤其是在需要精…

TOOL · CL_128991 · Jul 7 · 04:00

Quick ViTs 提升 Vision Transformer 效率，通过等变性

研究人员开发了“Quick ViTs”，一种通过引入对反射和旋转的等变性来提高 Vision Transformers (ViTs) 效率的新方法。这些 Quick ViTs 利用在二面体对称群 D8 的傅里叶域中运行的线性层，与标准 ViTs 相比，显著减少了 FLOPs 和内存使用量。在 ImageNet-1K 上使用监督（DeiT-III）和自监督（DINOv2）训练方法进行的实证评估表明，Quick ViTs 在提供显著计算优…

TOOL · CL_128856 · Jul 7 · 04:00

新的深度剪枝方法提高了视觉Transformer的效率

研究人员开发了一种名为HetDPT的新方法来改进视觉Transformer（ViTs）的深度剪枝。该方法考虑了不同层之间的异构性，而这是先前深度剪枝技术的局限性。HetDPT避免了维度不匹配的问题，并在ImageNet-1K和CIFAR-100等数据集上实现了显著的加速，同时保持了准确性。当与宽度剪枝结合时，HetDPT+在极端的ViT剪枝方面设定了新的最先进水平，在接近无损准确率的情况下实现了更高的加速比。

TOOL · CL_128740 · Jul 7 · 04:00

Fusion框架统一视觉Transformer适配以提高效率

研究人员开发了Fusion，一个旨在通过统一的顺序令牌适配技术来提高视觉Transformer（ViTs）效率的新型框架。该框架以分阶段的方式协调令牌合并、提前退出和令牌修剪，使这些机制能够协同工作而非竞争。Fusion还集成了轻量级路由模块，无需重新训练即可动态调整准确率-延迟权衡。在DeiT-S的ImageNet-1k上的实验表明，Fusion在计算预算方面匹配或超过了最先进的自适应ViT方法，同时显著降低了校准误差和推理能耗。

TOOL · CL_123241 · Jul 2 · 16:38

面向对象的LeJEPA利用SAM改进图像表示学习

研究人员开发了LeJEPA的面向对象版本，这是一种用于图像编码器的自监督学习方法。通过利用SAM生成的对象掩码，这种新方法旨在提高数据效率，优于传统的图像级方法。面向对象的LeJEPA在各种下游任务中表现出卓越的性能，包括跟踪、分类、分割和重新识别，即使在缩减的数据集上进行训练也是如此。

TOOL · CL_123233 · Jul 2 · 12:33

新的WBMM技术提高了大卷积核的效率

研究人员开发了一种名为窗口化批处理矩阵乘法（WBMM）的新技术，以提高大卷积核深度卷积的效率。传统方法随着卷积核尺寸的增加而出现性能下降，但WBMM将输入分割成窗口并使用偏置表构建权重矩阵，通过批处理矩阵乘法实现规则的内存访问。该方法在更大的窗口下显示出更高的吞吐量，并在ImageNet-1K、COCO和ADE20K等基准测试中取得了相当或更好的准确率，同时在各种硬件平台上实现了显著的训练加速。

TOOL · CL_121202 · Jul 1 · 13:21

新的CIM框架在数据集蒸馏方面达到最先进水平

研究人员推出了一种新的数据集蒸馏框架CIM，旨在最大限度地减少信息损失。与涉及多个压缩和重新标记阶段的先前方法不同，CIM直接对齐数据分布，以确保高保真信息压缩。据报道，该方法取得了最先进的成果，在一小时内在一台GPU上蒸馏了ImageNet-1K，并在ResNet-18上比现有方法提高了近3%。

TOOL · CL_111891 · Jun 26 · 02:12

REViT 为 Vision Transformers 注入旋转等变性，无需位置编码

研究人员开发了 REViT，一种新颖的方法，它在不依赖复杂位置编码的情况下，为 Vision Transformers (ViTs) 注入了旋转和反射等变性。通过使用“提升”层和群卷积自注意力 (G-CSA)，REViT 在更高维度的空间中处理输入图像，该空间固有地捕获了方向信息。该方法在各种数据集上的表现明显优于传统方法和标准 ViTs，展示了卓越的准确性和效率。

RESEARCH · CL_111633 · Jun 25 · 17:59

去噪注意力（DnA）提升视觉任务性能

研究人员推出了一种名为去噪注意力（DnA）的新方法，旨在提高基于注意力模型的视觉任务性能。DnA通过使用正负查询分别识别相关和不相关的图像特征，解决了标准softmax激活产生的噪声注意力模式问题。该方法将交互投影到不同的子空间，增强了特征的可辨别性。当应用于Vision Transformer Base (ViT-B)骨干网络时，DnA在ImageNet-1K上实现了0.8%的绝对增益，并在视频理解任务（包括视频Transforme…

TOOL · CL_109983 · Jun 25 · 04:00

新研究表明锐度感知最小化可改善AI模型校准

一篇新研究论文探讨了锐度感知最小化（SAM）如何改善深度神经网络的校准，使其在关键应用中不易过度自信。研究表明SAM隐式地最大化了预测分布熵，从而提高了校准效果。研究人员还提出了一种名为CSAM的变体，可进一步增强校准，并在ImageNet-1K等数据集的实验中显示出优于SAM和其他方法的性能。

RESEARCH · CL_99807 · Jun 18 · 09:10

CrossFlow 模型直接从潜在空间生成图像

研究人员推出了 CrossFlow，这是一种新颖的跨空间流公式，可将噪声潜在输入直接映射到像素空间图像。该方法通过优化一个预测图像而非潜在位移的单步目标，绕过了对单独解码器的需求。CrossFlow 可以作为独立的潜在空间到像素生成器，也可以作为现有潜在扩散管道的解码器替代品。在 256x256 分辨率的类条件 ImageNet-1k 上进行的实验中，CrossFlow-XL 在单次函数评估中达到了 1.62 的 FID 分数，证明了…

TOOL · CL_96289 · Jun 17 · 04:00

新的 PRISMamba 方法通过旋转鲁棒性增强视觉 SSM

研究人员推出了一种新方法 PRISMamba，用于处理视觉状态空间模型（SSM）中的图像。与将图像序列化为线性序列的传统方法不同，PRISMamba 将图像划分为同心环，并在每个环内聚合信息。该方法通过选择性地过滤通道来增强旋转鲁棒性并提高效率。PRISMamba 在 ImageNet-1K 上实现了具有竞争力的准确性，同时与现有的 VMamba 模型相比，展示了更高的吞吐量和更少的 FLOPs，特别是在旋转变换下保持了性能。

RESEARCH · CL_95890 · Jun 16 · 17:37

新研究表明数据集蒸馏效果不如核心集选择

一篇新的研究论文批判性地评估了数据集蒸馏（DD）方法，发现它们通常不如更简单的核心集选择（CS）策略，尤其是在ImageNet等大规模数据集上。该研究将七种最先进的DD方法与三种CS策略进行了基准测试，结果显示DD方法的计算成本可能更高，且实际优势有限。核心集还能更好地覆盖原始数据分布。

TOOL · CL_93711 · Jun 16 · 04:00

VIOLIN 通过空间先验增强了有限数据的视觉 Transformer

研究人员开发了 VIOLIN，一种用于视觉 Transformer (ViTs) 的新型掩码注意力机制，它增强了它们处理有限数据或较小模型容量图像的能力。通过空间填充曲线 (SFCs) 编码空间结构，VIOLIN 增加了最少的参数和计算开销，同时显著提高了各种计算机视觉任务的性能。评估显示，在需要空间信息的任务上准确率提高了高达 8.7%，在像素级任务上提高了高达 7.2%，证明了其在微调和预训练场景中的有效性。

TOOL · CL_91411 · Jun 15 · 04:00

新型脉冲神经网络Transformer实现最先进的效率

研究人员推出SAFformer，这是一种新颖的脉冲神经网络Transformer架构，旨在提高视觉数据处理的能效和性能。SAFformer采用受大脑预测编码启发的积极预测滤波范式，主动抑制可预测信号，并专注于显著的视觉特征。这种方法在CIFAR-10/100和CIFAR10-DVS数据集上取得了新的最先进成果，并在ImageNet-1K上以显著减少的参数和能耗实现了可观的准确率。