PulseAugur
实时 22:02:58
English(EN) MSNN-LINet: Cross-Modal Learning via Continuous Linear Integration

新的LINet架构可在RGB-D场景分类中实现连续跨模态学习

研究人员推出了一种新颖的多流神经网络(MSNN),名为LINet,用于RGB-D场景分类。与现有离散融合特征的架构不同,LINet在每一层都采用连续集成方法,使用线性集成卷积(LIConv2d)算子。该方法通过特定的常数初始化解决了初始化问题,并使用渐进式模态丢弃来防止训练过程中的通路崩溃。在SUN RGB-D上训练时,LINet在ResNet18规模下达到了45.2%的平均类别准确率,使用ScanNet预训练后提高到49.6%。 AI

影响 引入了一种新颖的多模态融合方法,有望提高需要集成视觉和深度数据的应用性能。

排序理由 该集群包含一篇详细介绍新模型架构及其在特定任务上性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的LINet架构可在RGB-D场景分类中实现连续跨模态学习

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Gabriel Clinger ·

    MSNN-LINet: Cross-Modal Learning via Continuous Linear Integration

    arXiv:2606.31135v1 Announce Type: cross Abstract: We present LINet (Linear Integration Network), a Multi-Stream Neural Network (MSNN) for RGB-D scene classification. Current multi-modal architectures treat feature fusion as a discrete, ad-hoc event: early fusion entangles represe…