CIFAR-100 · PulseAugur

XOResNet通过新颖的残差学习推动深度脉冲神经网络发展

研究人员开发了XOResNet，这是一种用于深度脉冲神经网络（SNNs）的新型架构，可提高学习和表示能力。该设计包含一个OR-ADD快捷连接，以更好地合并来自不同分支的输出，并利用XOR元残差来减少主干中的冗余学习。在多个数据集上的实验表明，XOResNet超越了当前最先进的深度SNNs，为高性能神经形态系统提供了新的见解。

TOOL · CL_49376 · May 15 · 06:07

代码嵌入提升神经架构搜索效率

研究人员开发了一种名为代码导向语言模型嵌入（COLE）的新方法来改进神经架构搜索（NAS）。该技术使用现成的语言模型从神经架构的代码表示中生成嵌入，从而绕过了昂贵的微调或复杂的特征工程的需要。在 NAS-Bench-201 和 einspace 上的实验表明，COLE 嵌入的性能优于其他基于文本的编码，并显著降低了找到高性能架构所需的评估预算。

TOOL · CL_32614 · May 14 · 02:26

新的TILT方法改进了无监督域自适应

研究人员推出了一种新的无监督域自适应方法——目标诱导损失倾斜（TILT），该方法解决了协变量偏移问题。TILT利用一种新颖的目标函数，通过惩罚未标记目标数据上的辅助组件来训练源预测器。这种方法隐式地加权了重要性，并在包括回归问题和CIFAR-100蒸馏在内的各种实验中显示出改进的性能，优于现有基线。

TOOL · CL_27615 · May 11 · 08:08

新的OUIDecay方法逐层自适应CNN正则化

研究人员推出了一种新颖的卷积神经网络自适应权重衰减方法OUIDecay。该技术根据在线激活模式动态调整每层的正则化强度，旨在提高训练效率和性能。与现有方法不同，OUIDecay不需要验证集，并在多个基准数据集和网络架构上展示了卓越的结果。

TOOL · CL_21941 · May 8 · 04:00

新的证书方法检测VAE中的恒定崩溃

研究人员开发了一种新方法来检测和防止变分自编码器（VAE）中一种称为恒定崩溃的特定类型的故障。该技术提供了一个可测试的证书，可以区分真正的潜在变量模型和遭受输入无关崩溃的模型。在CIFAR-100和Tiny-ImageNet-200数据集上的实验表明，该证书可以有效地识别甚至帮助从崩溃状态中恢复，其性能优于标准的VAE基线。

TOOL · CL_21937 · May 8 · 04:00

新的AS-LoRA方法提高了联邦学习的隐私性

研究人员开发了AS-LoRA，一种用于隐私保护联邦学习中LoRA组件自适应选择的新型框架。该方法通过允许每一层独立选择其活动组件并在通信轮次中调整这些选择来解决此类设置中常见的聚合错误。AS-LoRA在不增加隐私成本的情况下，理论上提高了收敛速度和准确性，并在GLUE和SQuAD等基准测试中取得了显著的进步。

RESEARCH · CL_21794 · May 7 · 15:23

新参数E可预测混合专家模型健康状况，防止专家失效。

研究人员引入了一个新的无量纲控制参数 E = T*H/(O+B)，用于预测混合专家（MoE）模型中专家生态系统的健康状况。该参数源自四个超参数，可以在无需手工设计的负载均衡损失的情况下防止“死专家”。在视觉和语言任务上的实验表明，E 值达到 0.5 或更高即可维持健康的专家生态系统，为 MoE 训练提供了一个统一的诊断工具。

RESEARCH · CL_21805 · May 7 · 13:49

层次感知交叉熵提高了图像分类的准确性

研究人员推出了一种新颖的损失函数——层次感知交叉熵（HACE），旨在通过考虑类别之间的语义关系来改进图像分类。与标准的交叉熵不同，HACE 整合了类别层次结构，以更好地处理误分类。该方法包括将预测概率向上聚合，并对真实标签应用祖先标签平滑。在 CIFAR-100 等数据集上的评估表明，HACE 可以提高准确性，尤其是在与冻结的 DINOv2-Large 特征一起使用时。

RESEARCH · CL_18735 · May 6 · 04:00

AI研究解决层级搭便车问题并增强模型数据隐私

研究人员在正向-正向网络中发现了一种称为层级搭便车（layer free-riding）的现象，即后层可以继承前层已部分处理的任务，导致梯度衰减。提出了三种局部解决方案来解决此问题，在不显著改变准确性的情况下，显著改善了CIFAR-10和CIFAR-100数据集上的层级分离统计数据。另外，开发了一个新的变分特征压缩框架，通过抑制跨模型迁移来保护数据隐私，同时为指定分类器保留准确性。该方法使用变分潜在瓶颈和动态二元掩码来降低表示对非预期模型的效用。

TOOL · CL_18651 · May 6 · 04:00

新的AdaLoc方法确保了可适应的AI模型使用控制

研究人员开发了一种名为AdaLoc的新方法，通过将访问密钥嵌入到模型参数的子集中来增强深度神经网络（DNN）的安全性。这种方法实现了可适应的模型使用控制，这意味着即使在微调或特定任务更新后，也可以在不进行完全重新密钥设置的情况下，将模型的效用恢复到授权状态。在各种基准测试和架构上的实验表明，AdaLoc在为授权用户保持高精度的同时，能够显著降低未经授权访问的性能，使其下降到接近随机猜测的水平。

RESEARCH · CL_18341 · May 5 · 13:33

GEM-FI: Gated Evidential Mixtures with Fisher Modulation

研究人员推出 GEM-FI，这是一类旨在提高深度学习中不确定性估计的新模型。该方法解决了现有证据深度学习方法的一些局限性，这些方法可能过于自信且无法表示多模态不确定性。GEM-FI 利用门控机制和证据头混合，以提供更准确和校准的不确定性估计，尤其是在图像分类和分布外检测任务中。

RESEARCH · CL_21948 · May 5 · 04:00

新的AI遗忘方法在数据移除和模型效用之间取得平衡

研究人员开发了新的机器学习遗忘方法，该方法可以在不完全重新训练的情况下从AI模型中移除特定数据。一种名为SHRED的方法，利用自蒸馏和Logit降级来识别和移除遗忘集中的高信息量Token，在遗忘效果和模型效用之间实现了新的帕累托最优权衡。另一种方法，保留-正交代理遗忘（ROSU），通过最大化遗忘增益同时最小化对保留目标的影响来约束遗忘过程，以保留非目标知识。对于多模态大型语言模型，一种零空间约束的对比视觉遗忘技术将目标视觉知识与保留…

TOOL · CL_15763 · May 5 · 04:00

大语言模型通过生成和优化视觉模型代码来辅助神经架构搜索

研究人员开发了一个新颖的框架，利用大语言模型（LLMs）自动搜索视觉模型中的最优通道配置。该方法将神经架构搜索视为条件代码生成任务，LLM根据性能反馈优化架构规范。为了克服数据稀缺性，该系统通过抽象语法树变异生成了有效架构的语料库，使LLM能够学习架构模式。在CIFAR-100上的实验表明，这种由LLM驱动的方法改进了初始架构种群，发现了非标准通道宽度等领域特定的设计模式。

TOOL · CL_15639 · May 5 · 04:00

新的 HyCAS 防御弥合了认证鲁棒性和经验鲁棒性之间的差距

研究人员开发了一种名为混合卷积注意力随机性（HyCAS）的新型对抗防御技术。该方法旨在弥合深度学习模型中理论鲁棒性保证与实际抗攻击能力之间的差距。实验表明，HyCAS 在不负面影响干净准确率的情况下，提高了各种图像数据集上的认证和经验对抗鲁棒性。

RESEARCH · CL_15414 · May 4 · 15:11

研究人员提出逐样本裁剪以实现鲁棒且快速的AI模型训练

研究人员开发了一种名为逐样本裁剪随机梯度下降（PS-Clip-SGD）的新训练方法，该方法提高了非凸优化问题的鲁棒性和速度。该方法为收敛提供了理论保证，即使存在重尾梯度噪声。实证测试表明，在CIFAR-100上训练AlexNet时，PS-Clip-SGD的性能优于标准技术，并且在与梯度累积结合使用时也显示出优势。

RESEARCH · CL_11881 · May 1 · 04:00

新研究揭示隐式偏差驱动深度学习中的神经缩放定律

研究人员发现了两个新的动力学缩放定律，它们描述了神经网络性能如何随着训练过程中复杂性度量的变化而变化。这些定律在CNN和Vision Transformers等各种架构以及多个数据集上均有观察到，并在收敛时恢复了已建立的测试误差缩放定律。单层感知器的分析工作支持了这些发现，并通过基于梯度的训练引入的隐式偏差来解释这种现象。

RESEARCH · CL_11718 · May 1 · 04:00

新研究探讨防止人工智能模型灾难性遗忘的方法

2026年5月6日提交的多篇研究论文探索了跨各种人工智能领域的持续学习的新方法。其中一篇论文介绍了一种基于重放的物理信息神经网络算子策略，以减轻灾难性遗忘。另一篇论文提出使用软令牌的“技能新词”来扩展大型语言模型的能力，而无需更新权重。此外，关于大型语言模型系统的研究提出了一种受生物记忆启发的、用于持续知识更新的多时间尺度记忆动力学方法。

RESEARCH · CL_08682 · Apr 29 · 04:00

JEPAMatch 论文提出用于半监督学习的几何塑形方法

研究人员推出了一种名为 JEPAMatch 的新方法，用于半监督学习，旨在提高标记数据稀缺时的模型性能。该方法超越了传统的基于置信度的伪标签方法，通过借鉴潜在欧几里得联合嵌入预测架构 (LeJEPA) 框架的思路，显式地塑形潜在空间中的几何表示。JEPAMatch 结合了标准的半监督损失和潜在空间正则化项，鼓励更结构化的表示和更快的收敛速度。在 CIFAR-100、STL-10 和 Tiny-ImageNet 数据集上的实验表明，JE…

RESEARCH · CL_08645 · Apr 29 · 04:00

新的UCB策略增强了用于边缘计算的自适应深度神经网络

研究人员为边缘计算环境中的自适应深度神经网络（ADNNs）引入了四种新的上限置信界（UCB）策略。这些策略，包括UCB-Bayes、UCB-Tuned和UCB-V，旨在动态平衡精度与能耗和延迟。使用CIFAR数据集在ResNet和MobileViT模型上进行的实验表明，UCB-Bayes收敛速度最快，而UCB-V和UCB-Tuned在精度、延迟和能耗之间提供了最佳的权衡。

RESEARCH · CL_08186 · Apr 28 · 14:18

QB-LIF神经元通过可学习尺度和脉冲爆发提升SNN效率

研究人员推出了一种新颖的脉冲神经网络（SNN）神经元模型QB-LIF，它解决了二元脉冲编码的信息吞吐量限制。QB-LIF通过使用可学习的尺度进行膜电位量化来重新构建脉冲爆发，使层能够适应其分辨率。这种方法通过将学习到的尺度折叠到突触权重中来保持硬件效率，并使用专门的代理梯度进行稳定优化。