[发明专利]面向张量计算单元卷积算子优化实现方法在审

专利信息
申请号: 202111195567.5 申请日: 2021-10-14
公开(公告)号: CN115983356A 公开(公告)日: 2023-04-18
发明(设计)人: 文敏华;陈金坤;丁丹迪;王一超;韦建文;林新华 申请(专利权)人: 上海交通大学
主分类号: G06N3/063 分类号: G06N3/063;G06N3/0464;G06N5/04
代理公司: 上海交达专利事务所 31201 代理人: 王毓理;王锡麟
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 张量 计算 单元 卷积 算子 优化 实现 方法
【说明书】:

一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。

技术领域

本发明涉及的是一种人工智能领域的技术,具体是一种面向NVIDIA GPU的张量计算单元(Tensor Core)卷积算子优化实现方法。

背景技术

深度学习编译器技术被提出以提升深度学习算子的研发效率,其中TVM编译优化技术能够有效的解决融合算子的自动代码生成问题。然而TVM生成的算子性能,极度依赖于算子调度策略的开发以及调度空间的设计。实际深度学习的业务场景要求TVM生成的算子性能和手工优化一样发挥硬件的极致性能。

现有的通用矩阵乘(GEMM)运算加速技术应用领域较为狭窄,或无法进行卷积算子的计算或无法运行融合算子,现有的改进GEMM处理技术则基于汇编指令集的操作编程难度较大,也不具备跨平台的通用性。

发明内容

本发明针对现有技术存在的上述不足,提出一种面向张量计算单元卷积算子优化实现方法,通过领域领域特定语言(DSL)编写卷积算子的计算与面向张量计算单元的调度,然后通过自动调优技术生成卷积计算代码,本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。

本发明是通过以下技术方案实现的:

本发明涉及一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。

所述的对卷积算子进行面向Tensor Core的调度优化,得到调度模板,具体包括:

步骤1)对输入数据、权重数据以及输出结果分别进行局部存储器(sharedmemory)和张量寄存器(wmma fragment)的缓存。

步骤2)利用半精度浮点类型存储空间小的特点,对缓存读写步骤进行双缓冲调度优化。

步骤3)利用半精度浮点类型读写带宽高的优势,对缓存读写步骤进行向量化调度优化。

步骤4)对计算维度进行切分,即将GEMM_M维度切分为bm,tm,om,im四个维度;将GEMM_N维度切分为bn,tn,on,in四个维度;根据切分参数im、in将GEMM_K切分为ok,ik两个维度。

步骤5)进行GPU的线程块绑定和线程绑定,即分别将切分出的维度bm绑定至blockIdx.y、tm绑定至threadIdx.y、bn绑定至blockIdx.x、in绑定至threadIdx.x。

步骤6)将未绑定的计算维度,映射为wmma::mma_sync表示的GEMM计算;经绑定后实现每个线程块将计算om*on个GEMM,计算的结果尺寸为im*in。

所述的切分,其参数为可搜索的参数模板,通过深度学习编译器中的自动搜索方式得到最优的切分参数。

为了参数搜索的高效性,本发明针对计算尺寸和硬件架构的特点,对切分参数im、in的搜索空间与搜索方法进行了特殊的设计,具体包括:

①当GEMM_M为32的倍数时,设置im的搜索空间为[8,16,32]并转到步骤④;否则转到步骤②。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111195567.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top