随着深度学习技术在各个领域取得里程碑式的成果,如何将深度学习模型部署在实际环境中成为当前的热点问题。这需要考虑到模型推理的精度,延迟,能耗,甚至隐私问题等。
1.1 模型压缩
高效部署机器学习系统首先需要一个性能良好的模型。模型压缩技术以不显著影响模型的精度而提升模型推理速度,降低模型推理能耗为目标,而推理速度和能耗对于边缘设备,比如智能手机,来说尤其重要。
1.2 深度学习编译
有了一个性能良好的模型,如何高效地实现则首先涉及到深度学习编译。深度学习模型是一个由各种算子,比如卷积算子,组成的计算图。深度学习编译则是优化这个计算图以及图中的各个算子和数据流,然后将其部署到各种设备上。
1.3 深度学习加速器
经过编译,模型需要部署在实际的硬件上。仅仅使用GPU对深度学习进行加速已经不能满足人们的需求,各种深度学习专用芯片被设计出来来对模型推理做进一步的性能提升。比如,利用FPGA可编程的特性,对新的体系结构快速做原型测试,提升深度学习的算子运算速度。