研究人员开发了一种在FPGA上加速卷积神经网络(CNN)的能效优化方法,特别针对用于图像分割的U-Net架构。通过提出一种合并乘加(MMA)架构,他们克服了数字串行算子最初的延迟问题,创建了一个统一的流水线,提高了吞吐量和效率。这种方法允许并行处理空间输入深度,与传统设计相比,性能显著提高。评估显示,基于FPGA的加速器在能效方面比基于CPU的推理高出一个数量级,并且与其他的MSDF FPGA实现相比,能耗显著降低。 AI
影响 这项研究为在边缘设备上实现更节能的AI推理提供了途径,特别适用于图像分割任务。
排序理由 详细介绍CNN加速新硬件架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →