State Space Models · PulseAugur

新型视觉SSM消除方向扫描，提升图像识别能力

研究人员推出了一种新颖的二阶非因果状态空间模型（SSM），名为Vision Non-Causal Trapezoidal Mamba (VNCT)，专为视觉识别任务设计。与依赖方向性标记扫描的先前视觉SSM不同，VNCT在单次传递中同时处理所有图像标记，消除了方向偏差并降低了推理延迟。这种方法产生了更具方向鲁棒性的表示，从而在ImageNet-1K分类、COCO目标检测和ADE20K语义分割等基准测试中取得了更好的性能，尤其是在需要精…

TOOL · CL_124941 · Jul 4 · 07:04

通过代码和类比解释反向传播和矩阵微积分

本文解释了反向传播和矩阵微积分在深度学习中的数学概念。它使用工厂装配线的类比来说明如何通过反向传播识别和纠正错误，这类似于神经网络中梯度的计算。解释中详细介绍了用于进行预测的前向传播、代表客户不满意的损失函数，以及通过层追溯错误以使用梯度下降调整参数的反向传播。

RESEARCH · CL_117363 · Jun 29 · 15:27

MuonSSM框架增强了用于序列建模的状态空间模型 · 跟踪到2个来源

研究人员推出MuonSSM，一个旨在提高状态空间模型（SSM）在序列建模任务中的稳定性和性能的新框架。通过关注内存更新的几何形状而非循环转移矩阵的条件，MuonSSM旨在克服长期序列中的不稳定性与内存退化等问题。该框架包含一个基于动量的路径和一个牛顿-舒尔茨变换，理论上改善了梯度传播和谱条件。在各种基准测试中的实验结果表明，当MuonSSM集成到不同的SSM架构中时，在准确性、鲁棒性和长上下文性能方面取得了持续的提升。

RESEARCH · CL_115192 · Jun 26 · 14:22

高阶FNO改进了用于非线性偏微分方程的神经网络算子 · 跟踪2个来源

研究人员推出了高阶傅里叶神经网络算子（HO-FNO），这是对傅里叶神经网络算子（FNO）的改进，旨在更好地处理非线性偏微分方程（PDE）。HO-FNO包含显式的n重线性模式混合能力，能够捕捉非线性偏微分方程特有的模式之间的结构化交互。实验表明，HO-FNO在保持FNO效率的同时，性能优于其他谱神经网络算子，并在泊松方程等高度非线性场景中与最先进的Transformer和状态空间模型相媲美。

RESEARCH · CL_115332 · Jun 26 · 04:56

新的MASS框架通过运动对齐扫描改进视频帧插值

研究人员推出了一种新颖的视频帧插值框架MASS（Motion-Aligned Selective Scan），它解决了大范围、非线性运动和遮挡带来的挑战。与使用静态网格扫描的先前方法不同，MASS沿着动态运动轨迹重新构建特征扫描。它采用可学习的非线性路径积分和速度感知的状态空间模型（SSM）来适应性地采样特征，将更多注意力分配给快速移动的区域。该方法在标准基准测试中，尤其是在复杂动态场景下，取得了最先进的结果。

RESEARCH · CL_111307 · Jun 25 · 10:35

新的LFNet方法融合CNN和SSM特征以改进显著目标检测

研究人员开发了一种名为Liquid Fusion Network (LFNet) 的新方法，通过协调不同神经网络架构的特征来改进显著目标检测。LFNet利用受Liquid Neural Networks启发的液态融合方法，解决了卷积神经网络 (CNN) 和状态空间模型 (SSM) 中固有的频谱偏差。这种动态集成允许内容感知的特征聚合，并且可以扩展到多模态线索，从而在各种任务中实现最先进的性能。

TOOL · CL_109880 · Jun 25 · 04:00

RotRNN：新的线性循环模型简化了长序列建模

研究人员推出了一种新颖的线性循环神经网络RotRNN，专为长序列建模而设计。该模型利用旋转矩阵简化了初始化和归一化过程，解决了现有状态空间模型（SSM）和线性循环单元（LRU）中的复杂性。RotRNN在各种长序列建模数据集上表现出竞争力，同时提供了更简单、更高效的实现。

TOOL · CL_108092 · Jun 24 · 04:00

新的混合Mamba-Transformer模型增强了电子健康记录表示

研究人员开发了HyMaTE，一种结合了Mamba（状态空间模型）和Transformer架构的新型混合模型，以改进电子健康记录（EHR）的表示。该方法旨在克服传统Transformer的局限性，如二次计算复杂性和有限的上下文长度，同时利用SSM在处理长序列方面的优势。HyMaTE在为医疗保健中的预测任务捕获更丰富、更细微的EHR数据表示方面已显示出有效性，提供了一种可扩展且可解释的解决方案。

RESEARCH · CL_109619 · Jun 24 · 03:14

Lifelong AI Learning Needs Parametric Attention in Transformers, Paper Argues

一项新的研究论文提出，要在 AI 代理中实现终身持续学习，必须在 Transformer 模型中使用参数化形式的注意力。该论文认为，当前注意力机制的二次方复杂度限制了 Transformer 处理任意长序列以进行上下文学习的能力。通过采用参数化注意力（该注意力通过回归在测试时学习键值关系），模型可以保持恒定的内存占用，这与 softmax 注意力等非参数化方法不同。该研究指出了参数化注意力目前的局限性，例如内存容量受限和在线更新成本高…

RESEARCH · CL_107920 · Jun 23 · 12:15

MambaRaw 使用状态空间模型进行高效的4K原始图像重建

研究人员开发了MambaRaw，一个使用JPEG预览重建高分辨率原始图像的新框架。该方法利用状态空间模型（SSMs）高效估计熵参数，克服了传统注意力机制在高分辨率下的计算开销。MambaRaw结合了空间-能量耦合上下文建模机制和TileMambaBlock进行选择性扫描，以及能量感知细化（EAR）来增强特征表示。在Sony、Olympus和Samsung数据集上的实验表明，MambaRaw在JPEG引导的原始图像重建方面取得了最先进的…

RESEARCH · CL_105258 · Jun 22 · 16:07

Mamba模型提供更快的OCR速度，但在历史文本上准确性落后于Transformer

研究人员对状态空间模型（SSMs），特别是Mamba，与Transformer和BiLSTM在历史报纸的光学字符识别（OCR）方面进行了基准测试。研究表明，虽然Mamba模型提供了显著的计算优势，将推理时间减半并显示出更好的内存扩展性，但与基于Transformer的模型相比，它们在严重退化的文本上的准确性略低。进一步的消融研究表明，Mamba在段落等长序列上的性能高度依赖于超参数调整，并且可能需要大量数据，在真实手写体上落后于Tra…

RESEARCH · CL_105199 · Jun 22 · 13:56

AI模型适应遥感研究中的新传感器和远程数据

两篇新的arXiv论文探讨了将机器学习应用于遥感数据的进展。第一篇论文 survey 了状态空间模型（SSMs）在密集视觉预测和时间数据分析等任务中的应用，强调了它们在捕捉长距离依赖关系和识别未来研究机会方面的有效性。第二篇论文介绍了 DeluluNet，一种新颖的架构，旨在通过最少的重新训练来使现有的遥感模型适应不断变化的传感器模式，解决了引入新卫星或传感器的情况。

RESEARCH · CL_100114 · Jun 19 · 04:00

机器人研究探索新的自监督和SSM用于模仿学习 · 跟踪2个来源

两篇新研究论文探讨了改进机器人强化学习的高级技术。第一篇，时间自模仿学习（TSIL），提出一种方法，利用成功机器人轨迹的时间效率作为自监督信号，提高各种操作任务的学习效率和鲁棒性。第二篇论文RoboSSM提出使用状态空间模型（SSMs）代替Transformer进行上下文模仿学习，展示了机器人处理具有有限演示的长时任务的改进的可扩展性和泛化能力。

RESEARCH · CL_104681 · Jun 19 · 02:00

新研究探索超越自回归AI的扩散模型和状态空间模型

两篇新的arXiv论文探讨了超越传统自回归语言模型的先进建模技术。第一篇论文 survey 了用于代码智能的扩散模型、代码世界模型和状态空间模型，并提出这些模型可以克服规划和依赖处理方面的局限性。第二篇论文介绍了一种扩散驱动的状态空间模型（DDSSM），它用扩散模型替换高斯转移，通过更好地捕捉潜在系统动力学来改进时间序列拟合和预测。

TOOL · CL_106745 · Jun 18 · 19:15

新研究探讨用于鲁棒强化学习的状态空间模型的对抗性攻击

一篇新的研究论文探讨了对抗性攻击如何影响强化学习中使用的概率状态空间模型（SSM）。该研究分析了攻击者如何在似然约束下改变观测值以影响潜在状态和策略决策。这项研究旨在开发更鲁棒的强化学习系统，特别适用于机器人等安全关键型应用，在这些应用中，在各种不利条件下可靠运行至关重要。

RESEARCH · CL_99689 · Jun 18 · 11:30

新研究探索鲁棒优化和强化学习技术 · 已追踪 6 个来源

几篇新研究论文探索了强化学习和优化中的先进技术，重点关注鲁棒性和生成模型。其中一篇论文引入了一个平稳鲁棒均值场博弈框架，以解决多智能体强化学习中的模型不匹配问题，并建立了具有收敛保证的新算法。另一篇论文提出了生成式鲁棒优化 (GRO)，它使用深度生成模型来定义不确定性集，以实现更具表现力和可处理性的优化。此外，还提出了一种名为 SIVE 的新估计器，用于绕过神经网络损失景观中的最小化偏差，提供了一种鲁棒的训练诊断工具。最后，引入了一种…

TOOL · CL_98055 · Jun 18 · 04:00

新框架揭示状态空间模型如何学习代码，指导架构改进

研究人员开发了SSM-Interpret，一个用于分析用于代码理解的状态空间模型（SSM）的新框架。研究发现，与Transformer相比，SSM最初能更好地捕捉语法和语义结构，但在微调过程中可能会忘记一些关系。基于这些发现的架构修改在NLCodeSearch任务上将SSM性能提高了多达6个MRR，证明了该框架在指导模型设计方面的实用性。

TOOL · CL_96289 · Jun 17 · 04:00

新的 PRISMamba 方法通过旋转鲁棒性增强视觉 SSM

研究人员推出了一种新方法 PRISMamba，用于处理视觉状态空间模型（SSM）中的图像。与将图像序列化为线性序列的传统方法不同，PRISMamba 将图像划分为同心环，并在每个环内聚合信息。该方法通过选择性地过滤通道来增强旋转鲁棒性并提高效率。PRISMamba 在 ImageNet-1K 上实现了具有竞争力的准确性，同时与现有的 VMamba 模型相比，展示了更高的吞吐量和更少的 FLOPs，特别是在旋转变换下保持了性能。

RESEARCH · CL_93792 · Jun 15 · 17:23

新库Dynestyx简化了机器学习的状态空间模型

研究人员推出了一款名为Dynestyx的新概率编程库，旨在简化状态空间模型（SSM）与现代概率编程语言的集成。该库通过提供一个统一的接口来指定先验、对混合效应数据进行推断以及量化状态和参数估计中的不确定性，旨在使动态系统的高级方法更容易被从业者使用。Dynestyx旨在简化统计学、信号处理和机器学习应用中的贝叶斯工作流程。

RESEARCH · CL_84425 · Jun 10 · 10:48

AI模型通过新技术推进呼吸音分类

两篇新研究论文提出了用于呼吸音分类的先进AI技术。一篇论文介绍了QLung，一个质量自适应框架，它根据录音质量调整学习裕度，从而提高了在ICBHI和SPRSound数据集上的性能。另一篇论文Lung-SRAD，探索了状态空间模型作为Transformer在该任务上的替代方案，并结合了频谱感知正则化和对比学习，在ICBHI基准测试上比基线方法提高了5%。