期刊文献+

面向FPGA的卷积神经网络压缩平台

Neural Network Compression Platform on FPGA
在线阅读 下载PDF
导出
摘要 模型压缩对于在资源有限的设备上实时部署卷积神经网络(CNNs)非常重要。采用模型剪枝和量化作为主要方案,由于剪枝的解空间较大,剪枝结构优化仍然具有挑战性,同时由于指令集的不同需要设计面向FPGA的手动量化。提出了一种剪枝子结构优化方法来提高FPGA资源利用率,并对剪枝模型进行训练后手动量化。使用Wasserstein距离测量各层过滤器的灵敏度,揭示了模型性能和特征图的Wasserstein距离之间的联系,采用动态规划算法以指导剪枝子结构优化。针对FPGA手动设计8比特量化方案,降低了计算成本和推理时延。在ImageNet数据集上对VGG-16取得了27倍的压缩,同时在加速器上推理一张图片仅需7.1 ms。 A pruned sub-structure optimization method is proposed to improve FPGA resource utilization and to manually quantize the pruned model.This paper uses the distance to measure the sensitivity of filters,and reveals the connection between model performance and Wasserstein distance between feature maps,and a dynamic programming algorithm is used to guide the pruned sub-structure optimization.The 8-bit quantization scheme is manually designed for FPGAs to reduce computational cost and inference latency.A 27-fold compression is achieved on VGG-16 with ImageNet dataset,while inferencing an image just need 7.1 ms on the accelerator.
作者 孙琪茗 曹姗
出处 《工业控制计算机》 2023年第10期119-121,共3页 Industrial Control Computer
基金 国家自然科学基金项目(61904101) 上海科技委员会(21ZR1422200) 国家重点研发计划资助(2019YFE0196600)。
关键词 模型剪枝 子结构优化 灵敏度 手动量化 现场可编程门阵列 model pruning sub-structure optimization sensitivity manual quantization field programmable gate array
  • 相关文献

参考文献2

二级参考文献11

共引文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部