一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日