乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

面向张量计算单元卷积算子优化实现方法

一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。

More Posts

Send Us A Message