PulseAugur
实时 08:36:14
English(EN) Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification

视觉 Transformer 和 CNN 在土地利用分类中的比较

一篇新的研究论文比较了视觉 Transformer (ViTs) 和卷积神经网络 (CNNs) 在使用遥感影像进行土地利用场景分类方面的有效性。该研究在 UC Merced Land Use 和 EuroSAT 数据集上评估了 AlexNetViT,分析了准确率、精确率、召回率和 F1 分数等指标。结果表明,CNN 在数据有限和具有强局部纹理的情况下更具鲁棒性,而 ViT 在有足够训练数据的情况下擅长捕捉全局空间关系,尽管它们需要更多的计算资源。 AI

影响 为选择适合遥感土地利用分类任务的深度学习模型提供了见解。

排序理由 学术论文,针对特定任务展示了两种深度学习架构的比较分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Arun D. Kulkarni ·

    用于土地利用场景分类的视觉Transformer和卷积神经网络

    Land Use Scene Classification (LUSC) from remote sensing imagery plays a critical role in environmental monitoring, urban planning, and sustainable resource management. In recent years, deep learning methods have significantly advanced the state of the art, with Convolutional Neu…