English(EN) Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification

ViTs与CNN在土地利用场景分类上的比较

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员比较了视觉Transformer（ViTs）和卷积神经网络（CNNs）在遥感图像土地利用场景分类方面的有效性。该研究使用了UC Merced Land Use和EuroSAT等基准数据集，评估了准确率、精确率和召回率等指标。研究结果表明，CNNs在数据有限且局部特征较强的情况下更为稳健，而ViTs在有充足训练数据时擅长理解全局空间关系，但需要更多的计算资源。 AI

影响为遥感土地利用分类任务选择合适的深度学习模型提供了指导。

排序理由这是一篇比较两种现有架构在特定任务上的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Arun D. Kulkarni · 2026-06-04 04:00

Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification

arXiv:2605.21268v2 Announce Type: replace Abstract: Land Use Scene Classification (LUSC) from remote sensing imagery plays a critical role in environmental monitoring, urban planning, and sustainable resource management. In recent years, deep learning methods have significantly a…

报道来源 [1]

Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification

相关实体

相关话题