English(EN) Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision

新架构利用自适应DCT和混合骨干网络解决稀有动物图像分类问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-01 04:00

一篇研究论文介绍了一种新颖的深度学习架构，旨在提高稀有动物物种的图像分类准确性，这些物种的数据本身就很少。所提出的混合框架结合了一个自适应离散余弦变换（DCT）预处理模块与Vision Transformer (ViT-B16) 和 ResNet50 骨干网络。该方法利用频域线索和空间表示，通过跨层融合策略在分类前将它们整合起来。 AI

影响提出了一种提高AI模型在样本极度稀缺数据集上性能的新方法。

排序理由这是一篇详细介绍新颖深度学习架构的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Ziyue Kang, Weichuan Zhang · 2026-05-01 04:00

用于稀疏数据视觉的频率自适应离散余弦-ViT-ResNet架构

arXiv:2505.22701v3 Announce Type: replace Abstract: A major challenge in rare animal image classification is the scarcity of data, as many species usually have only a small number of labeled samples. To address this challenge, we designed a hybrid deep-learning framework comprisi…

报道来源 [1]

用于稀疏数据视觉的频率自适应离散余弦-ViT-ResNet架构

相关实体

相关话题