English(EN) Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification

视觉 Transformer 和 CNN 在土地利用分类中的比较

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-20 14:57

一篇新的研究论文比较了视觉 Transformer (ViTs) 和卷积神经网络 (CNNs) 在使用遥感影像进行土地利用场景分类方面的有效性。该研究在 UC Merced Land Use 和 EuroSAT 数据集上评估了 AlexNet 和 ViT，分析了准确率、精确率、召回率和 F1 分数等指标。结果表明，CNN 在数据有限和具有强局部纹理的情况下更具鲁棒性，而 ViT 在有足够训练数据的情况下擅长捕捉全局空间关系，尽管它们需要更多的计算资源。 AI

影响为选择适合遥感土地利用分类任务的深度学习模型提供了见解。

排序理由学术论文，针对特定任务展示了两种深度学习架构的比较分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Arun D. Kulkarni · 2026-05-20 14:57

用于土地利用场景分类的视觉Transformer和卷积神经网络

Land Use Scene Classification (LUSC) from remote sensing imagery plays a critical role in environmental monitoring, urban planning, and sustainable resource management. In recent years, deep learning methods have significantly advanced the state of the art, with Convolutional Neu…

报道来源 [1]

用于土地利用场景分类的视觉Transformer和卷积神经网络

相关实体

相关话题