[发明专利]共同映射通信算子有效
申请号: | 201110439844.2 | 申请日: | 2011-12-23 |
公开(公告)号: | CN102637123A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | P·F·林塞斯;Y·莱瓦诺尼;张玲莉;朱伟荣;D·J·麦克拉迪 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F9/302 | 分类号: | G06F9/302 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 刘佳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 共同 映射 通信 算子 | ||
1.一种存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由计算机系统执行时使得所述计算机系统执行一种方法,所述方法包括:
响应于被配置为在一个或多个数据并行计算节点上执行的数据并行源代码中的第一共同映射通信算子,而根据第一索引空间上的函数,将输入可索引类型映射到输出可索引类型;以及
使用所述输出可索引类型来执行数据并行算法。
2.如权利要求1所述的计算机可读介质,其特征在于,所述输入可索引类型具有第一秩和第一元素类型,且所述输出可索引类型具有第二秩和第二元素类型。
3.如权利要求1所述的计算机可读介质,其特征在于,所述函数将所述第一索引空间映射到第二索引空间。
4.如权利要求3所述的计算机可读介质,其特征在于,所述第一索引空间对应于所述输出可索引类型,而所述第二索引空间对应于所述输入可索引类型。
5.如权利要求1所述的计算机可读存储介质,其特征在于,还包括:
对所述输出可索引类型应用第二通信算子。
6.如权利要求1所述的计算机可读存储介质,其特征在于,所述数据并行源代码是用具有数据并行扩展的编程语言编写的。
7.如权利要求1所述的方法,其特征在于,所述数据并行源代码是用高级数据并行编程语言编写的。
8.如权利要求1所述的计算机可读存储介质,其特征在于,所述一个或多个数据并行计算节点包括至少一个图形处理单元。
9.如权利要求1所述的计算机可读存储介质,其特征在于,所述一个或多个数据并行计算节点包括至少一个通用处理器。
10.一种由计算机系统中的编译器执行的方法,所述方法包括:
在被配置成供在一个或多个数据并行计算节点上执行的数据并行源代码中标识第一共同映射通信算子;以及
从所述数据并行源代码中产生数据并行可执行代码,以使所述数据并行可执行代码通过根据在第一索引空间上的函数从输入可索引类型产生输出可索引类型来实现所述第一共同映射通信算子。
11.如权利要求10所述的方法,其特征在于,所述输入可索引类型具有第一秩和第一元素类型,且所述输出可索引类型具有第二秩和第二元素类型。
12.如权利要求10所述的方法,其特征在于,所述函数将所述第一索引空间映射到第二索引空间。
13.如权利要求12所述的方法,其特征在于,所述第一索引空间对应于所述输出可索引类型,而所述第二索引空间对应于所述输入可索引类型。
14.如权利要求10所述的方法,其特征在于,还包括:
从所述数据并行源代码中产生数据并行可执行代码,以使所述数据并行可执行代码将第二通信算子应用到所述输出可索引类型。
15.如权利要求10所述的方法,其特征在于,所述数据并行源代码是用带有数据并行扩展的高级通用编程语言编写的。
16.如权利要求10所述的方法,其特征在于,所述数据并行源代码是用高级数据并行编程语言编写的。
17.如权利要求10所述的方法,其特征在于,所述一个或多个数据并行计算节点包括至少一个图形处理单元。
18.如权利要求10所述的方法,其特征在于,所述一个或多个数据并行计算节点包括至少一个通用处理器。
19.一种存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由计算机系统执行时执行一种方法,所述方法包括:
根据第一索引空间上的函数,将共同映射通信算子应用于具有第一秩和第一元素类型的输入可索引类型,来产生具有第二秩和第二元素类型的输出可索引类型,其中所述输出可索引类型对应于所述第一索引空间;以及
使用所述输出可索引类型来执行数据并行算法;
其中所述共同映射通信算子被包括在用带有数据并行扩展的高级通用编程语言编写的数据并行源代码中。
20.如权利要求19所述的计算机可读存储介质,其特征在于,所述数据并行源代码被设置为在包括至少一个图形处理单元的一个或多个数据并行计算节点上执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110439844.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于研磨抛光机的取盘装置
- 下一篇:一种治疗暑湿型结肠炎的中药制备方法
- 同类专利
- 输出值生成电路及方法、处理器以及计算机可读介质-201910246968.5
- 村田纪文;上田恭子 - 松下知识产权经营株式会社
- 2019-03-29 - 2019-10-11 - G06F9/302
- 本公开的目的在于提供一种能够抑制输出值的精度的下降的输出值生成电路及方法、处理器以及计算机可读介质。输出值生成电路(10)具有输出部(11),所述输出部(11)生成将对输入值(D1)进行转换而得到的输出值以浮点数的形式来表现的情况下的尾数部(D11)和指数部(D12),并将尾数部(D11)和指数部(D12)分别单独地输出。
- 一种计算装置及相关产品-201810161636.2
- 不公告发明人 - 上海寒武纪信息科技有限公司
- 2018-02-27 - 2019-09-03 - G06F9/302
- 本公开提供了一种计算装置,所述计算装置获取训练样本、训练模型;所述训练模型包括n层结构;包括:指令控制单元用于获取训练指令,根据所述训练指令得到正向运算指令和反向运算指令;运算单元用于根据所述正向运算指令对所述训练样本进行n层正向运算得到第n层正向运算结果,根据所述第n层正向运算结果获得第n层输出数据梯度,根据所述反向运算指令对所述第n层输出数据梯度执行n层反向运算得到所述训练模型的权值梯度;所述训练模型的权值梯度包括每层的权值梯度;压缩单元用于对所述训练模型的权值梯度进行处理,以对应得到处理后的权值梯度;计算装置用于依据所述处理后的权值梯度对所述训练模型的权值进行更新,以完成训练。
- 大数据运算加速系统-201821774904.X
- 秦强 - 北京比特大陆科技有限公司
- 2018-10-30 - 2019-07-23 - G06F9/302
- 本实用新型实施例提供一种大数据运算加速系统,包括2个以上运算芯片,运算芯片包括N个内核、N个数据通道和至少一个存储单元,数据通道包括发送接口和接收接口,内核和数据通道一一对应;2个以上运算芯片通过发送接口和接收接口进行连接传输数据;至少一个存储单元用于分布式存储数据。该系统中取消了芯片外接内存,将存储单元设置在ASIC芯片内部,减少了ASIC芯片从外部读取数据的时间,加快了芯片运算速度。多个ASIC芯片共享存储单元,这样不仅减少了存储单元的数量,也减少了ASIC运算芯片之间的连接线,简化了系统构造,减低了ASIC芯片的成本。同时,多个运算芯片之间采用serdes接口技术进行数据传输,提高了在多个ASIC芯片之间数据传输的速率。
- 用于无符号双字的矢量乘法和累加的设备和方法-201811391381.5
- E.奥尔德-艾哈迈德-瓦尔;R.瓦伦丁;M.查尼;J.科巴尔;V.马杜里 - 英特尔公司
- 2018-11-21 - 2019-07-12 - G06F9/302
- 一种用于执行打包有符号/无符号双字的有符号乘法和与四字累加的设备和方法。例如,处理器的一个实施例包括:第一源寄存器,用于存储第一多个打包双字数据元素;第二源寄存器,用于存储第二多个打包双字数据元素;第三源寄存器,用于存储多个打包四字数据元素;执行电路,用于执行解码指令,执行电路包括:乘法器电路;累加电路;目的地寄存器或第三源寄存器。
- 用于将打包四字移位并提取打包字的装置和方法-201811390327.9
- E.奥尔德-艾哈迈德-瓦尔;R.瓦伦丁;M.查尼;V.马杜里 - 英特尔公司
- 2018-11-21 - 2019-06-28 - G06F9/302
- 用于将打包四字移位并提取打包字的装置和方法。方法含解码左移位指令以生成经解码的左移位指令;在第一源寄存器中存储多个包括符号位的打包四字数据元素;执行经解码的左移位指令,含将第一源寄存器中的分别来自第一和第二打包四字数据元素位置的第一和第二打包四字数据元素左移位在立即数值中或在第二源寄存器中的控制值中指定的量,将零写到由打包四字数据元素的左移位所暴露的位位置中;在移位电路实行左移位操作时维持符号位的副本;选择第一和第二经左移位的四字的含符号位的16个最高有效位,以分别被写到目的地寄存器的第一和第二四字数据元素位置的16个最低有效位区域,从而将符号位写到每个16个最低有效位区域的最高有效位位置。
- 用于有符号双字的向量乘法和累加的装置和方法-201811479071.9
- E·乌尔德-阿迈德-瓦尔;R·凡伦天;M·查尼;J·考博尔;V·马杜里 - 英特尔公司
- 2018-12-05 - 2019-06-28 - G06F9/302
- 本申请提供了用于有符号双字的向量乘法和累加的装置和方法。在一个实施例中,该装置和方法用于执行指令,该指令用于执行两个紧缩有符号双字的双紧缩乘法以生成两个有符号四字值,这两个有符号四字值随后与来自累加寄存器的两个有符号四字值累加。还描述并要求保护其他实施例。
- 指令执行方法及其处理器、介质和系统-201910085634.4
- 沈卫杰;吕达夫 - 安谋科技(中国)有限公司
- 2019-01-29 - 2019-06-28 - G06F9/302
- 本申请涉及信息处理的安全领域,公开了一种防止侧信道攻击的指令执行方法及其处理器和系统。本申请中的指令执行方法包括:确定第一指令的运算操作,并对第一指令和第一指令的操作数进行与第一指令的运算操作对应的第一运算预处理和第一运算;确定第二指令的运算操作,并对第二指令和第二指令的操作数进行与第二指令的运算操作对应的第二运算预处理和第二运算;其中,第一运算和第二运算为不同的运算,并且第一运算预处理和第一运算与第二运算预处理和第二运算并行进行。
- 执行卷积运算操作的方法及装置、生成指令的方法及装置-201910190531.4
- 李智超;王振江;凌坤;李建军 - 北京地平线机器人技术研发有限公司
- 2019-03-13 - 2019-06-14 - G06F9/302
- 公开了一种执行卷积运算操作的方法及装置、生成指令的方法及装置,该执行卷积运算操作的方法包括:获取第n个第二卷积核;基于第一卷积核在宽度和高度上的尺寸、与第一输入特征数据在宽度和高度上填充后的尺寸、第n个第二卷积核在宽度和高度上的尺寸、和第n个第二卷积核在第一卷积核中的宽度起点坐标和高度起点坐标,从填充后的第一输入特征数据中,获取与第n个第二卷积核对应的第二输入特征数据;对与第n个第二卷积核对应的第二输入特征数据和第n个第二卷积核执行卷积运算操作;以及在得到N个第二输出特征数据后,对N个第二输出特征数据进行整合。本申请能够在不增加硬件成本的前提下提高硬件执行卷积神经网络运算的效率。
- 响应指令执行舍入运算-201910143641.5
- R.埃克索哈;S.斯托里 - 英特尔公司
- 2007-09-21 - 2019-06-11 - G06F9/302
- 在一个实施例中,本发明包括一种方法,用于在处理器中接收舍入指令和立即值,确定立即值的舍入模式替换指示符是否有效,并且如果是这样的话,则在处理器的浮点单元中,响应该舍入指令并且根据在立即操作数中规定的舍入模式,以源操作数执行舍入运算。对其它的实施例进行了描述并要求其权益。
- 一种数据处理的方法及电子设备-201510669919.4
- 咸鹤群;程相国 - 华为技术有限公司
- 2015-10-13 - 2019-06-07 - G06F9/302
- 本发明涉及数据处理领域,特别涉及一种数据处理的方法及电子设备,用以解决目前二进制数据进行平方运算处理速度较低的问题。其中,该方法包括:电子设备通过执行引擎调用至少两个处理单元分别执行:确定第一偏移量,并获得第二偏移量;根据第二偏移量从第二存储空间中获取待运算数据;根据待运算数据和第一偏移量确定第三偏移量;根据第三偏移量从第三存储空间获取与待运算数据对应的运算结果,第三存储空间中预先存储有与待运算数据长度相同的数据的所有平方运算结果。这种技术方案由于对于不同的第一偏移量,数据处理的过程是相互独立的,因此,能够通过执行引擎调用多个处理单元同时进行处理,从而提高了二进制数据平方运算的处理的速度。
- 用于复紧缩数据元素和实紧缩数据元素的乘法和累加的装置和方法-201810996655.7
- V·马杜里;E·乌尔德-阿迈德-瓦尔;J·考博尔;M·查尼;R·凡伦天;B·杨 - 英特尔公司
- 2018-08-29 - 2019-04-26 - G06F9/302
- 公开了用于复紧缩数据和实紧缩数据的乘法和加法的装置和方法。示例方法包括:将第一源寄存器中所选择的虚数据元素与第二源寄存器中所选择的实数据元素相乘,并且将第一源寄存器中所选择的实数据元素与第二源寄存器中所选择的虚数据元素相乘,以生成多个虚乘积;将多个虚乘积的第一子集相加以生成第一临时结果,并且将多个虚乘积的第二子集相加以生成第二临时结果;对第一和第二临时结果执行取反以分别生成第三和第四临时结果;将第三临时结果与来自目的地寄存器的第一数据累加以生成第一最终结果,并且将第四临时结果与来自目的地寄存器的第二数据累加以生成第二最终结果;以及将第一和第二最终结果往回存储在目的地寄存器中。
- 用于执行紧缩数据元素的双有符号和无符号乘法的装置和方法-201810994549.5
- V·马杜里;E·乌尔德-阿迈德-瓦尔;J·考博尔;M·查尼;R·凡伦天;B·杨 - 英特尔公司
- 2018-08-29 - 2019-04-05 - G06F9/302
- 公开了用于执行紧缩数据元素的双有符号和无符号乘法的装置和方法。用于执行紧缩数据元素的双同时乘法的装置和方法。例如,处理器的一个实施例包括:解码器,用于对第一指令解码以生成经解码的指令;第一源寄存器,用于存储第一多个紧缩字节数据元素;第二源寄存器,用于存储第二多个紧缩字节数据元素;执行电路,用于执行经解码的指令,该执行电路包括:乘法器电路,用于同时将第一多个紧缩字节数据元素中的每一个与第二多个紧缩字节数据元素中对应的紧缩字节数据元素相乘以生成多个乘积;加法器电路,用于将乘积的所指定的集合相加以生成针对乘积的每一个集合的临时结果;零扩展或符号扩展电路,用于对针对每一个集合的临时结果进行零扩展或符号扩展以生成针对每一个集合的扩展临时结果;累加电路,用于将扩展临时结果中的每一个扩展临时结果与存储在第三源寄存器中的所选择的紧缩数据值组合以生成多个最终结果;以及目的地寄存器,用于将多个最终结果作为多个紧缩数据元素存储在所指定的数据元素位置中。
- 用于将源操作数映射到不同范围的系统、装置和方法-201710089609.4
- E·乌尔德-阿迈德-瓦尔;T·R·克拉弗 - 英特尔公司
- 2011-12-22 - 2019-03-29 - G06F9/302
- 本申请公开了用于将源操作数映射到不同范围的系统、装置和方法。描述了在计算机处理器中执行范围映射指令的系统、设备和方法的实施例。在一些实施例中,范围映射指令的执行将具有源数据范围的数据元素映射到具有目的地数据范围的目的地数据元素以及存储目的地数据元素。
- 主要由预设高斯整数组成的完美高斯整数序列的产生方法-201811461927.X
- 曾凡鑫;何希平;宣贵新;张振宇;李国军;钱林杰;彭燕妮;晏力 - 重庆工商大学
- 2018-11-30 - 2019-03-08 - G06F9/302
- 本发明公布了一种主要由预设高斯整数组成的完美高斯整数序列的产生方法,所获得序列具有偶周期N,并且具有似冲激的自相关函数。对任意由序列设计者预设的高斯整数c=c0+c1j(j2=‑1),本发明方法产生的完美高斯整数序列中有N‑2码元是c,另两个码元分别为和本发明可应用于信号处理、通信系统和大规模集成电路测试。
- 运用芯片技术原理使各态物质能运算和存储的方法-201811244611.5
- 易霄 - 有份儿智慧科技股份有限公司
- 2018-10-24 - 2019-02-01 - G06F9/302
- 本发明公开了运用芯片技术原理使各态物质能运算和存储的方法,包括固态实体、液态实体、空气芯片,所述空气芯片包括多个存储节点、一个存储器和一个连接单元;所述连接单元将空气芯片中的内容供给连接口为多个存储器节点的存储器,第一存储器节点将固态实体或者液态实体两个以上的不同的物质相互连接;还包括运算控制装置,所述运算控制装置对相互连接的物质,进行物质编码;所述运算控制装置通过以下步骤进行物质编码:步骤1:获取第一存储器节点中包含的空气芯片中内容、并行处理给固态实体或者液态实体两个以上的不同的物质;步骤2:将步骤1中的物质按照属性数据库进行属性组分类。
- 处理装置和处理方法-201880000923.3
- 陈天石;韦洁;支天;王在;刘少礼;罗宇哲;郭崎;李韦;周聖元;杜子东 - 上海寒武纪信息科技有限公司
- 2018-04-17 - 2019-01-01 - G06F9/302
- 一种计算位宽动态可配置的处理装置,包括:存储器,用于存储数据,所述数据包括待运算数据、中间运算结果、最终运算结果和待缓存数据;数据宽度调整电路,用于调整所述待运算数据、中间运算结果、最终运算结果和/或待缓存数据的宽度;运算电路,用于对待运算数据进行运算,包括采用加法器电路和乘法器对不同计算位宽的待运算数据进行计算;以及控制电路,用于控制存储器、数据宽度调整电路和运算电路。本公开所述的装置具有灵活性强、可配置程度高、运算速度快、功耗低等优点。
- 用于执行缩小和舍入算术运算的数据处理装置和方法-201410320394.9
- 内尔·伯吉斯;大卫·雷蒙德·鲁茨 - ARM有限公司
- 2014-07-07 - 2018-10-19 - G06F9/302
- 本发明涉及一种用于执行缩小和舍入算术运算的数据处理装置和方法。所述缩小和舍入算术运算响应于每个都包括至少一个W位数据元的两个操作数来生成包括至少一个X位结果数据元的结果值,其中每个X位结果数据元都表示被舍入到X位值的所述两个操作数的对应W位数据元的和或差(W>X)。所述算术运算使用许多N位加法(N<W)来实现,其中来自N位加法的第一级的进位值在N位加法的第二级处被相加以用于将舍入值加到所述第一级加法的结果。这种技术减少用于执行所述缩小和舍入算术运算所需要的时间量。
- 一种手持仪器的数字处理方法-201510337025.5
- 管邦伟;钟洪念;王繁 - 成都前锋电子仪器有限责任公司
- 2015-06-17 - 2018-07-20 - G06F9/302
- 本发明公开了一种手持仪器的数字处理方法,涉及信号处理分析技术。本发明设计的主要思想是建立在OMAP‑L138双核处理器的基础上,利用它的高精度浮点运算能力,并运用TI的双核数据交互软件DSPLINK实现ARM与DSP的数据交互,最终实现FFT分析,窄带功率、调制频偏和调幅深度的计算;同时模块化设计方法,也具有较好的可靠性,扩充性、兼容性。
- 处理器和用于在处理器上执行矩阵乘运算的方法-201610894738.6
- 周妮;漆维;王勇;欧阳剑 - 北京百度网讯科技有限公司
- 2016-10-13 - 2018-06-01 - G06F9/302
- 本申请公开了处理器和用于在处理器上执行矩阵乘运算的方法。所述处理器的一具体实施方式包括数据总线以及由k个处理单元组成的阵列处理机,其中:所述数据总线,用于依次从M×N的被乘数矩阵中读取n列的行向量并输入至所述阵列处理机中的每个处理单元、从N×K的乘数矩阵中读取n×k的子矩阵并将所述子矩阵的每个列向量输入至所述阵列处理机中对应的处理单元以及将每个处理单元执行乘运算所得到的结果输出;所述阵列处理机中的每个处理单元,用于并行对输入的行向量以及列向量执行向量乘运算,每个处理单元包括由n个乘法器和n‑1个加法器组成的华莱士树乘法器。该实施方式提高了矩阵乘运算的处理效率。
- 一种基于NEON引擎的向量化Montgomery模乘器的设计方法-201510280570.5
- 吴汶泰 - 四川卫士通信息安全平台技术有限公司
- 2015-05-27 - 2018-03-20 - G06F9/302
- 本发明公开了一种基于NEON引擎的向量化Montgomery模乘器的设计方法,它包括以下步骤S1数据输入;S2数据初始化;S3数据迭代计算;S4根据迭代结果,将Z和CT进行累加更新Z的值;S5对计算结果Z进行溢出判断和处理。本发明通过将进位数据进行独立缓存的方式,减少每次迭代对进位数据的累加,仅在最后一次迭代完成后对进位数据进行一次累加,使得高、低位数据之间的运算不存在依赖关系,从而可以通过NEON引擎进行向量化的数据并行处理,具体的,本发明可以提高基于ARM Cortex‑A系列芯片的MMM运算速度,从而提高公钥加密体系的整体性能。
- 数据处理方法、装置及电子设备-201410288775.3
- 赖雪峰 - 联想(北京)有限公司
- 2014-06-24 - 2017-12-29 - G06F9/302
- 本发明实施例公开了一种数据处理方法、装置及电子设备,分段进行互相关运算,在每一段的互相关运算中,在一个滑动窗口的相邻两滑动位置处,所述第i段所述第一子序列中所述滑动窗口所覆盖的采样点数据与第i段所述第二子序列中所述滑动窗口所覆盖的采样点数据进行对应位相乘以串行方式执行,则每一段互相关运算中的所有滑动位置处的乘法可以共用乘法器,从而降低了乘法器的使用数量,进而降低硬件成本,减小了芯片体积。
- 在浮点操作中功率降低的方法-201310596158.5
- 戴维·孔拉尔·坦伦包姆;科林·斯普林克尔;斯图尔特·F·奥伯曼;萧耀明;斯里尼瓦桑·耶尔;恩池·颜·孔 - 辉达公司
- 2013-11-21 - 2017-11-03 - G06F9/302
- 提供用于使能在浮点操作中功率降低的方法。在一个示例中,系统接收混合乘加指令的浮点数。系统确定混合乘加指令针对浮点数不要求遵从精度标准。系统生成选通信号用于配置为实施混合乘加指令的操作的集成电路。系统随后将选通信号发送到集成电路以关闭包括在集成电路中的多个逻辑门。
- 用于从十进制浮点格式转换为压缩十进制格式的机器指令-201580052644.8
- J·D·布拉德伯里;S·卡罗格;R·科普兰;M·密特兰 - 国际商业机器公司
- 2015-09-15 - 2017-05-24 - G06F9/302
- 提供一种用于执行机器指令以将数据从十进制浮点格式转换为压缩十进制格式的方法。所述方法从在通信上耦合到存储器的处理器的一个或多个寄存器读取十进制浮点格式的数据。所述方法将所述十进制浮点格式的数据转换成压缩十进制格式。所述方法将转换成所述压缩十进制格式的数据写入所述存储器。
- 基于NVIDIAKeplerGPU汇编指令的单精度矩阵乘优化方法与系统-201611260732.X
- 谭光明;张秀霞;周可人;王朝尉 - 中国科学院计算技术研究所;中国科学院国有资产经营有限责任公司
- 2016-12-30 - 2017-05-17 - G06F9/302
- 本发明涉及单精度矩阵乘优化方法,该方法基于NVIDIA Kepler GPU汇编指令,包括:根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块,每个block处理<bm,bn>维度的输出矩阵C;在GPU二级存储上创建4个暂存空间smA,smB,smAx和smBx;从GPU一级存储上的矩阵A读取该smA大小的矩阵到该smA,从矩阵B读取该smB大小的矩阵到该smB;每次从该smA加载一列A矩阵分块数据到寄存器,从该smB加载一行B矩阵分块数据到寄存器,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,且在做矩阵乘运算的同时,从该GPU一级存储读取下一个该smA的一列到该smAx,并储读取下一个该smB的一行到该smBx;步骤5,做完该smA和该smB的矩阵乘以后,将该smA和该mAx地址互换,将该smB和该smBx地址互换。
- 算术处理装置-201410100282.2
- 吉村和浩;葛毅;堀尾一生 - 富士通株式会社
- 2014-03-18 - 2017-05-10 - G06F9/302
- 公开了一种算术处理装置,该算术处理装置包括算术单元,配置成执行算术运算;以及流引擎,该配置成执行流处理,其中,算术单元的数据总线和流引擎的数据总线彼此紧耦合。
- 一种新型计算机导进器-201620625207.2
- 赵鹏 - 华北理工大学
- 2016-06-23 - 2017-02-22 - G06F9/302
- 本实用新型提供了一种新型计算机导进器,包括数据采集模块、数据导进模块、逻辑模块和处理模块,还包括监控模块、木马监测、波动监测和报警装置,所述的数据采集模块连接数据导进模块,数据导进模块连接对数据进行监测的监控模块,监控模块连接报警装置和逻辑模块,逻辑模块连接处理模块。本实用新型的有益效果为采用独立式监控模块,可以同时对多路线路近期处理,有效地避免了由于中央控制处理器的时钟总线波动发生器有量的设置,同时设有木马监测和波动监测装置,可以对导入数据进行安全检测,防止因木马病毒造成系统瘫痪,也可以避免及时监控波动数据增大或减小的量。
- 一种图形化的Pi演算方法-201010604693.7
- 姜梦稚 - 上海电机学院
- 2010-12-24 - 2016-11-23 - G06F9/302
- 一种图形化的Pi演算方法,包括如下步骤:定义Pi演算的静态语义;定义翻译后的动态规则;定义Pi演算的传输图形;通过传输图形建立进程图,所述进程图包含了进程所有可能作的动作的有向图,并通过进程图来研究进程等价性。本发明的优点在于,提供了一种有向图的判定算法(在一定前提下的图同构判定),这一判定算法可以作为计算机方面的自动判定进程等价提供基础。所采用的方法使用了有向图的技术来描述进程的代数性质,具有直观,可判定的优势,避免了代数性质研究的复杂,抽象的不足。
- 用于执行多个乘法操作的方法和装置-201510090366.7
- R·艾斯帕萨;G·索尔;M·费尔南德斯 - 英特尔公司
- 2015-02-28 - 2015-09-30 - G06F9/302
- 本申请公开了用于执行多个乘法操作的方法和装置。描述了用于执行多个乘法操作的装置和方法。例如,处理器的一个实施例包括:指令取出单元,该指令取出单元用于从存储器子系统中取出双乘法指令,该双乘法指令具有三个源操作数值;解码单元,该解码单元用于解码该双乘法指令以生成至少一个uop;以及执行单元,该执行单元用于第一次执行该uop以将三个源操作数值中的第一和第二操作数值相乘,从而生成第一中间结果,并且第二次执行该uop以将该中间结果与三个源操作数中的第三操作数值相乘,从而生成最终结果。
- 一种DSP中高效CORDIC指令实现方法-201510236473.6
- 王和国;陶建平;刘勇;韩景通;孙振玮 - 江苏宏云技术有限公司
- 2015-05-11 - 2015-08-12 - G06F9/302
- 本发明涉及一种用于DSP中高效CORDIC指令实现方法,该方法规范一种CORDIC运算的DSP指令,该指令内嵌至DSP内核流水线中,给出一套DSP内部模块化实现CORDIC计算三角函数的方法。通过内嵌至DSP内核流水线的CORDIC指令来实现CORDIC运算,简化了软件编程复杂度,降低了软硬件交互的损耗,可以高效的完成三角函数的计算。并且基于模块化设计的CORDIC运算,极大的降低了硬件的损耗,节省了芯片的成本,同时使得基于DSP实现的CORDIC运算达到相当高的精度。
- 一种信息数据的本征格式和虫洞格式之间的互换方法-201310239890.7
- 高明利 - 高明利
- 2013-05-15 - 2014-11-26 - G06F9/302
- 目前降低信息数据的信息量的唯一途径是对数据进行压缩,所有压缩方法都是提取信息数据的“冗余”进行压缩,解压则是将信息数据的“冗余”恢复出来。一种信息数据的本征格式和虫洞格式之间的互换方法是基于信息不守恒定律,通过对大信息量数据的数学表达式的改写使得信息数据的信息量趋于极小,反过来,趋于极小信息量的数据再通过数学表达式的改写使得小信息量数据无损还原为大信息量数据。理论上来说,只要给予足够的时间,该发明可将全世界的所有信息数据转换为几十个甚至几个电缪子符号(见主案申请)。
- 专利分类