研究人员开发了一种名为窗口化批处理矩阵乘法(WBMM)的新技术,以提高大卷积核深度卷积的效率。传统方法随着卷积核尺寸的增加而出现性能下降,但WBMM将输入分割成窗口并使用偏置表构建权重矩阵,通过批处理矩阵乘法实现规则的内存访问。该方法在更大的窗口下显示出更高的吞吐量,并在ImageNet-1K、COCO和ADE20K等基准测试中取得了相当或更好的准确率,同时在各种硬件平台上实现了显著的训练加速。 AI
影响 WBMM为需要大感受野的模型提供了更高效的训练和推理途径,有可能在各种硬件上提高性能。
排序理由 详细介绍深度学习卷积新计算技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- ADE20K
- arXiv
- central processing unit
- COCO
- graphics processing unit
- Hugging Face
- ImageNet-1K
- Large Kernel Acceleration
- Windowed Batch Matrix Multiplication
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →