CN109214509B - 一种用于深度神经网络高速实时量化结构和运算实现方法 - Google Patents
一种用于深度神经网络高速实时量化结构和运算实现方法 Download PDFInfo
- Publication number
- CN109214509B CN109214509B CN201710540111.5A CN201710540111A CN109214509B CN 109214509 B CN109214509 B CN 109214509B CN 201710540111 A CN201710540111 A CN 201710540111A CN 109214509 B CN109214509 B CN 109214509B
- Authority
- CN
- China
- Prior art keywords
- parameters
- deep neural
- neural network
- quantization
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于深度神经网络高速实时量化结构和运算实现方法,被处理数据通过深度神经网络得到处理结果在深度神经网络选取部分或全部节点作为计算模块,计算模块内的节点参数为或量化为2的整数倍次幂形式的参数,将计算模块的输入数据与2的整数倍次幂形式的参数进行运算得到输出结果。本发明可以简化计算所消耗的资源,降低系统需求。
Description
技术领域
本发明为一种深度神经网络量化结构和方法。深度神经网络可以应用在图像识别,语音识别,大数据分析等方面。
背景技术
深度神经网络是基于学习的方法的一种,其通过逐层抽象特征,组合底层抽象形成高层特征抽象,来发现数据的特征,解决不同的数据表示问题。其拓扑结构和计算方式模拟人脑神经系统,事实证明可准确地感知数据特征。深度神经网络包括CNN,DNN,RNN等结构。近年基于深度神经网络的方法的目标图像识,语音识别,大数据分析等方面别得到很好的效果。
在2006年多伦多大学教授Hinton基于深度网络提出了一种快速逐层非监督训练算法,为多层神经网络训练方法做出了革命性的进展,Hinton也因此被称为深度学习之父。2012年,Alex Krishevsky与来自多伦多大学(University of Toronto)的其他研究人员提出了一种基于CNN的深度架构AlexNet,赢得了当年的ILSVRC冠军(错误率16.4%使用额外数据可达15.3%)。他们竞争对手以及之前几年的模型相比在识别性能方面取得了实质性的提升。随后,ILSVRC的Top-5错误率在近几年取得重大突破,而主要的突破点都是在深度学习和卷积神经网络,成绩的大幅提升几乎都伴随着卷积神经网络的层数加深。现在,国际的Google,IBM,百度,Intel等领先的科技互联网和硬件公司都将深度网络人工智能方向作为重点发展方向。
但是深度神经网络结构复杂,规模大,计算量高,对应用深度神经网络的使用条件提出较高要求,这成为现在主要问题之一。
传统深度神经网络中主要运算是乘法运算和加法运算,其中乘法运算是占用整个资源中的最大部分,经研究发现,神经网络对低精度权重值具有非常高的容忍度,极度粗略的权重值并不会大幅降低预测精度。新兴趋势是采用远低于32位的紧凑型低精度数据类型,研究人员已经对极低精度的2位三进制和1位二进制DNN进行了持续的精度改进,其中值分别约束为(0,+1,-1)的三值网络或(+1,-1)的二值网络。在二值网络和三值网络中将原有的乘法运算简化为加法运算,大大加速了运算过程,压缩网络结构。但是在ImageNet这种库上面,还是不够准确。
发明内容
针对上述技术不足,本发明提出一种用于深度神经网络高速实时量化结构和运算实现方法,可以简化计算所消耗的资源,降低系统需求。
本发明解决其技术问题所采用的技术方案是:一种用于深度神经网络高速实时量化结构和运算实现方法,被处理数据通过深度神经网络得到处理结果,在深度神经网络选取部分或全部节点作为计算模块,计算模块内的节点参数为或量化为2的整数倍次幂形式的参数,将计算模块的输入数据与2的整数倍次幂形式的参数进行运算得到输出结果。
所述2的整数倍次幂形式的参数包括绝对值大于1的数。
所述计算模块的输入数据与2的整数倍次幂形式的参数进行运算具体为:计算模块的输入数据与2的整数倍次幂形式的参数相乘时在处理器中采用位移运算。
所述2的整数倍次幂形式的参数为计算模块提出公共系数后,进行量化所得结果。
所述2的整数倍次幂形式的参数为直接通过训练约束所得结果。
所述量化包括以下步骤:
6)设定量化参数个数M,占全体量化参数个数的a%个数值中,选取绝对值最大的N个参数值Fm-n…Fm;
7)计算Fm-n…Fm的平均值Fma;
8)设Fma为量化最大值;
9)设量化为K级,即2的0次幂至2的K次幂,并将Fma与2的K次幂的比例作为公共系数;
10)根据2的0次幂至2的K次幂的比例关系,确定量化其他级所对应的中间数值,将量化参数与中间数值进行比较,根据临近点法取得量化参数对应的幂的大小,进而得到量化结果。
所述计算模块输入数据为或量化为2的整数倍次幂形式,输入数据与参数的乘法运算转化为指数的加法运算。
当计算模块的输入为深度神经网络的中间结果时,将中间结果量化提出公共系数,将中间结果量化为2的整数倍次幂形式大小,公共系数在计算模块以后的网络层参与运算。
所述将计算模块的输入数据与2的整数倍次幂形式的参数进行运算具体为将计算模块的输入数据与2的整数倍次幂形式的参数进行卷积运算,包括以下步骤:
计算模块的输入数据与2的整数倍次幂形式的参数相乘,即指数相加,得到H个相乘结果M1,…,MH,统计相乘结果中相同数值的数值个数,将数值个数输入到对应译码器得到实际数值;
将所有实际数值相加,得到输出结果。
深度神经网络的输入接收被处理数据;计算模块的输出结果至下一级的计算模块或者网络层,深度神经网络输出处理结果。
本发明具有以下有益效果及优点:
1.本发明计算模块输入数据量化为2的整数倍次幂形式,可以简化计算所消耗的资源,降低系统需求。
2.本发明计算模块的输入数据与2的整数倍次幂形式的参数进行卷积运算,这样可以进一步简化所消耗资源。
附图说明
图1为实施例一中系数提取示例图。
图2为2的整数倍次幂形式的输入数据与2的整数倍次幂形式的参数卷积和的计算流程示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明。
一种用于深度神经网络高速实时量化结构和运算实现方法在深度神经网络选取部分或全部节点作为计算模块,计算模块内的节点参数为或量化为2的整数倍次幂形式的参数,将计算模块的输入数据与2的整数倍次幂形式的参数进行运算得到输出结果。
参数为2的整数倍次幂形式即参数为1,-1,2,-2,4,-4,8,-8等2的整数倍次幂形式。计算机中数值均由2进制表示,计算机中2的整数倍次幂形式的参数的有效数字为一位,并且可表示不同大小,可以有不同于其他数字的运算形式,所以可以简化算法与深度网络结构。选取的所述部分或全部节点作为计算模块为同一层的临近的一些节点为一个计算模块,也可以将几个临近层之间对应位置的一些节点作为一个计算模块。深度神经网络的输入数据可以为图像灰度数据,音频数据,金融数据等数据形式。
一种用于深度神经网络高速实时量化结构和运算实现方法,所述2的整数倍次幂形式的参数包括绝对值大于1的数。
2的整数倍次幂形式的参数包括绝对值大于1的数,即参数不局限于1,-1,0范围内。
一种用于深度神经网络高速实时量化结构和运算实现方法,所述计算模块的输入数据与2的整数倍次幂形式的参数进行运算具体为:计算模块的输入数据与2的整数倍次幂形式的参数相乘时在处理器中采用位移运算。
计算模块的输入数据与2的整数倍次幂形式的参数相乘时,乘法运算可以转化为位移运算。计算机处理数据为二进制计算,浮点乘法是转化为通过有效数据与参数分别整数相乘得到。整数相乘过程如下两个无符号二进制数X和Y,X为M位宽,Y为N位宽
其中Xi,和Yj为0或者1,那么X和Y的乘法定义如下
Z为X和Y的积,Zk为第K位有效数值。
例如X=101010,Y=1011
计算过程如下:被乘数与乘数的第一个位相乘(实际为“与”操作)产生积,并且根据乘数相应位的位置对部分积进行左移(例如,被乘数与乘数的第0位相乘不移位;与第1位相乘,部分积左移1位,以此类推),最终将所有的部分积相加得到乘法运算的结果。M位被乘数与N位乘数相乘得到的乘积是M+N位的。
一次乘法运算包括多次加法运算与位移运算,所以多位数乘法运算的复杂度要较加法与位移运算高一至几个数量级。
一次2的整数倍次幂形式的参数乘法,例如101010与4(100)相乘只需一次位移运算
我们将量化级别定义为1,-1,2,-2,4,-4,8,-8……等2的整数倍次幂形式的参数,这些参数特殊之处在于与其他整数数据相乘只会产生一次位移运算,但量化精度与二值网络和三值网络仅用1,-1,0表示的精度相比却有了大幅提高,也就是将原来的1表示为多量化级别的1,2,4,8…,原来的-1表示为多量化级别的-1,-2,-4,-8…,特别是在参数值较低时保持较高的量化精度。也就是说,我们的方法可以在二值网络或三值网络的计算的速度量级下拥有更高精度的深度神经网络。
一种用于深度神经网络高速实时量化结构和运算实现方法,所述2的整数倍次幂形式的参数为计算模块提出公共系数后,进行量化所得结果。
2的整数倍次幂形式的参数可以是同一计算模块内的相对关系。计算模块参数不需要绝对值为2的整数倍次幂形式的参数,只需要提出公共系数后量化结果为2的整数倍次幂形式的参数,即同一计算模块内参数之间的相对关系为2的整数倍次幂形式即可。
2的整数倍次幂形式的参数为直接通过训练约束所得结果。
深度神经网络参数的产生是设置约束条件,通过大量的样本反复迭代训练,直至达到约束条件产生的。通过样本训练模型时,我们直接约束参数为2的整数倍次幂形式的精度来计算参数,生成的网络直接就为2的整数倍次幂形式的参数。
量化包括以下步骤:
1)设定量化参数个数M,占全体量化参数个数的a%个数值中,选取绝对值最大的N个参数值Fm-n…Fm;
2)计算Fm-n…Fm的平均值Fma;
3)设Fma为量化最大值;
4)设量化为K级,即2的0次幂至2的K次幂,并将Fma与2的K次幂的比例作为公共系数;
5)根据2的0次幂至2的K次幂的比例关系,确定量化其他级所对应的中间数值,将量化参数与中间数值进行比较,根据临近点法取得量化参数对应的幂的大小,进而得到量化结果。
计算模块输入数据为或量化为2的整数倍次幂形式,输入数据与参数的乘法运算转化为指数的加法运算。
当输入为数据和参数同时为2的整数倍次幂形式时,参数与输入数据相乘转化为指数相加。
当计算模块的输入为深度神经网络的中间结果时,将中间结果量化提出公共系数,将中间结果量化为2的整数倍次幂形式大小,公共系数在计算模块以后的网络层参与运算。
中间结果量化计算步骤提出公共系数后,将中间结果量化为2的整数倍次幂形式大小,公共系数可在计算的后续结果或最终结果处进行相乘等运算。
一种用于深度神经网络高速实时量化结构和运算实现方法,将所述计算模块的输入数据与2的整数倍次幂形式的参数进行卷积运算包括以下步骤(如图2):
计算模块的输入数据与2的整数倍次幂形式的参数相乘,即指数相加,得到H个相乘结果M1,…,MH,统计相乘结果中相同数值的数值个数,将数值个数输入到对应译码器得到实际数值;
将所有实际数值相加,得到输出结果。
其中统计相乘结果M1,…,MH中相同数值的数值个数,例如分别统计相乘结果中大小为1对应的数的个数P1,相乘结果中大小为2对应的数的个数P2,相乘结果中大小为4对应的数的个数P3,相乘结果中大小为8对应的数的个数P4。将P1,P2,P3,P4分别送入到对应的译码其中得到实际数值大小。译码过程为对应权值与输入的P1,P2,P3,P4相乘过程,即P1,P2,P3,P4进行相应位移运算。
一种用于深度神经网络高速实时量化结构和运算实现方法,深度神经网络的输入接收被处理数据;计算模块的输出结果至下一级的计算模块或者网络层,深度神经网络输出处理结果,输出的结果为对图像、声音、金融数据的分类结果。
其被处理数据为图像数据,声音数据,金融数据等,输出处理结果为对图像声音,金融的判别分类等。实现图像、声音、金融数据的分类。
实施例一
深度神经网络可以应用在图像处理的图像识别中,深度神经网络有多层网络构成,这里举例其中一层与图像运算的结果,输入数据为图像的灰度数值,如表3所示,表3为2进制数值,数值大小对应为图像灰度值大小。深度神经网络完成对图像的卷积等运算,根据计算结果对图像进行识别分类。
深度神经网络
如图1所示,参数的整数倍次幂形式的参数的表达可以在一个运算比较集中的单元(同一层)内表示,也就是单元内的参数只要相对关系为整数倍次幂形式的参数,提出共享的权值,就可以使用整数倍次幂形式的参数。参数如图一暂时采用2的4次幂为最大对应参数中最大数值的方法进行量化,及2的4次幂对应2.12,2的3次幂对应1.06,2的2次幂对应0.53,2的1次幂对应0.265,2的0次幂对应0.1325,提出公用系数0.1325。未量化原始数据如表1,量化后数据如表2。
表1
2.09 | 0.98 | 0.48 | 0.09 |
0.15 | -0.14 | -1.08 | 2.12 |
-0.91 | 1.92 | 0 | -1.03 |
0.87 | 0 | 0.53 | 0.49 |
表2
4 | 3 | 2 | 0 |
0 | -0 | -3 | 4 |
-3 | 4 | * | -3 |
3 | * | 2 | 2 |
结果可见提出公共系数后,表格2中存储系数的2的幂数。网络结构大幅简化,而且后续计算只需位移与相加计算即可,可大幅提高运算速度。
输入数据如表3,
表3
100010 | 111001 | 1110110 | 10110 |
100010 | 101 | 111 | 1110 |
110010 | 1001 | 1000 | 111101 |
11101 | 11001 | 11 | 10 |
输入数据与参数对应位相乘后所得结果如表4:
表4
1000100000 | 111001000 | 111011000 | 10110 |
100010 | 101 | 111000 | 11100000 |
110010000 | 10010000 | 0 | 111101000 |
11101000 | 0 | 1100 | 1000 |
所得计算结果为图像传给下一层网络的结果,输出对应数据相乘结果。
实施例二
同样为在图像识别中应用。深度网络未量化原始数据如表5。
参数的整数倍次幂形式的参数的表达可以在一个运算比较集中的单元(同一层)内表示,也就是单元内的参数只要相对关系为整数倍次幂形式的参数,提出共享的权值,就可以使用整数倍次幂形式的参数。参数如表暂时采用2的4次幂为最大对应参数中最大数值的方法进行量化,及2的4次幂对应6.84,2的3次幂对应3.42,2的2次幂对应1.71,2的1次幂对应0.855,2的0次幂对应0.4275,提出公用系数0.4275。量化后结果如表6所示。图像输入原始数据如表7所示,数值大小对应图像灰度值大小。量化后如表8所示。量化后表6与量化后表8实际数据相乘计算即为指数相加,计算结果为表9。
表5
3.17 | 3.98 | 6.78 | 4.88 |
1.54 | 2.68 | 4.62 | 5.51 |
1.65 | 5.43 | 0.15 | 5.53 |
2.78 | 4.58 | 6.84 | 5.24 |
表6
3 | 3 | 4 | 3 |
2 | 2 | 3 | 4 |
2 | 4 | 0 | 4 |
3 | 3 | 4 | 4 |
表7
0.54 | 5.78 | 6.48 | 2.55 |
4.95 | 3.54 | 1.55 | 9.64 |
3.68 | 7.75 | 3.11 | 0.22 |
4.88 | 2.14 | 3.56 | 0.12 |
表8
0 | 3 | 3 | 2 |
3 | 3 | 1 | 4 |
3 | 4 | 2 | 0 |
3 | 2 | 3 | 0 |
表9
3 | 6 | 7 | 5 |
5 | 5 | 4 | 5 |
5 | 8 | 2 | 4 |
6 | 5 | 7 | 4 |
结果可见提出公共系数后,表格6中存储参数的2的幂数。网络结构大幅简化,而且后续计算只需相加计算即可得到表9,可大幅提高运算速度,输出对应数据相乘结果。
Claims (9)
1.一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于:在深度神经网络选取部分或全部节点作为计算模块,计算模块内的节点为2的整数倍次幂形式的参数,或量化为2的整数倍次幂形式的参数,将计算模块的输入数据与2的整数倍次幂形式的参数进行运算得到输出结果;深度神经网络应用在图像处理的图像识别中,输入数据为图像的灰度数值;
所述量化包括以下步骤:
1)设定量化参数个数M,占全体量化参数个数的a%个数值中,选取绝对值最大的n个参数值Fm-n…Fm;
2)计算Fm-n…Fm的平均值Fma;
3)设Fma为量化最大值;
4)设量化为K级,即2的0次幂至2的K次幂,并将Fma与2的K次幂的比例作为公共系数;
根据2的0次幂至2的K次幂的比例关系,确定量化其他级所对应的中间数值,将量化参数与中间数值进行比较,根据临近点法取得量化参数对应的幂的大小,进而得到量化结果。
2.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于所述2的整数倍次幂形式的参数包括绝对值大于1的数。
3.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于所述计算模块的输入数据与2的整数倍次幂形式的参数进行运算具体为:计算模块的输入数据与2的整数倍次幂形式的参数相乘时在处理器中采用位移运算。
4.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于所述2的整数倍次幂形式的参数为计算模块提出公共系数后,进行量化所得结果。
5.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征为所述2的整数倍次幂形式的参数为直接通过训练约束所得结果。
6.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于所述计算模块输入数据为2 的整数倍次幂形式, 或量化为2的整数倍次幂形式,输入数据与参数的乘法运算转化为指数的加法运算。
7.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于:当计算模块的输入为深度神经网络的中间结果时,将中间结果量化并提出公共系数,将中间结果量化为2的整数倍次幂形式大小,公共系数在计算模块以后的网络层参与运算。
8.根据权利要求6所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征在于所述将计算模块的输入数据与2的整数倍次幂形式的参数进行运算具体为将计算模块的输入数据与2的整数倍次幂形式的参数进行卷积运算,包括以下步骤:
计算模块的输入数据与2的整数倍次幂形式的参数相乘,即指数相加,得到H个相乘结果M1,…,MH,统计相乘结果中相同数值的数值个数,将数值个数输入到对应译码器得到实际数值;
将所有实际数值相加,得到输出结果。
9.根据权利要求1所述一种用于深度神经网络高速实时量化结构和运算实现方法,其特征为:深度神经网络的输入接收被处理数据;计算模块的输出结果至下一级的计算模块或者网络层,深度神经网络输出处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710540111.5A CN109214509B (zh) | 2017-07-05 | 2017-07-05 | 一种用于深度神经网络高速实时量化结构和运算实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710540111.5A CN109214509B (zh) | 2017-07-05 | 2017-07-05 | 一种用于深度神经网络高速实时量化结构和运算实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109214509A CN109214509A (zh) | 2019-01-15 |
CN109214509B true CN109214509B (zh) | 2021-07-06 |
Family
ID=64992592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710540111.5A Active CN109214509B (zh) | 2017-07-05 | 2017-07-05 | 一种用于深度神经网络高速实时量化结构和运算实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214509B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11437032B2 (en) | 2017-09-29 | 2022-09-06 | Shanghai Cambricon Information Technology Co., Ltd | Image processing apparatus and method |
US11740898B2 (en) | 2018-02-13 | 2023-08-29 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
CN110162162B (zh) | 2018-02-14 | 2023-08-18 | 上海寒武纪信息科技有限公司 | 处理器的控制装置、方法及设备 |
WO2020001438A1 (zh) | 2018-06-27 | 2020-01-02 | 上海寒武纪信息科技有限公司 | 片上代码断点调试方法、片上处理器及芯片断点调试系统 |
CN110009021B (zh) * | 2019-03-26 | 2021-06-15 | 深兰科技(上海)有限公司 | 一种目标识别方法及设备 |
CN110008952B (zh) * | 2019-03-26 | 2021-06-15 | 深兰科技(上海)有限公司 | 一种目标识别方法及设备 |
CN110020616B (zh) * | 2019-03-26 | 2021-05-11 | 深兰科技(上海)有限公司 | 一种目标识别方法及设备 |
US11676029B2 (en) | 2019-06-12 | 2023-06-13 | Shanghai Cambricon Information Technology Co., Ltd | Neural network quantization parameter determination method and related products |
EP3770823A4 (en) | 2019-06-12 | 2021-01-27 | Shanghai Cambricon Information Technology Co., Ltd | QUANTIFICATION PARAMETER DETERMINATION PROCESS FOR NEURONAL NETWORK, AND RELATED PRODUCT |
CN110674924B (zh) * | 2019-08-22 | 2022-06-03 | 苏州浪潮智能科技有限公司 | 一种深度学习推理自动量化方法和装置 |
EP4020321A4 (en) | 2019-08-23 | 2024-01-17 | Anhui Cambricon Information Technology Co., Ltd. | DATA PROCESSING METHOD, APPARATUS, COMPUTER APPARATUS AND STORAGE MEDIUM |
WO2021036412A1 (zh) * | 2019-08-23 | 2021-03-04 | 上海寒武纪信息科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
EP4024280A4 (en) | 2019-08-27 | 2022-11-16 | Anhui Cambricon Information Technology Co., Ltd. | DATA PROCESSING METHOD AND APPARATUS, COMPUTER EQUIPMENT AND STORAGE MEDIA |
CN113095468B (zh) * | 2019-12-23 | 2024-04-16 | 上海商汤智能科技有限公司 | 神经网络加速器及其数据处理方法 |
CN111522837B (zh) * | 2020-04-23 | 2023-06-23 | 北京百度网讯科技有限公司 | 用于确定深度神经网络的耗时的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101809638A (zh) * | 2007-08-09 | 2010-08-18 | 国立大学法人冈山大学 | 运算方法和运算装置 |
CN105844330A (zh) * | 2016-03-22 | 2016-08-10 | 华为技术有限公司 | 神经网络处理器的数据处理方法及神经网络处理器 |
CN106066783A (zh) * | 2016-06-02 | 2016-11-02 | 华为技术有限公司 | 基于幂次权重量化的神经网络前向运算硬件结构 |
WO2017031630A1 (zh) * | 2015-08-21 | 2017-03-02 | 中国科学院自动化研究所 | 基于参数量化的深度卷积神经网络的加速与压缩方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767565B2 (en) * | 2015-08-26 | 2017-09-19 | Digitalglobe, Inc. | Synthesizing training data for broad area geospatial object detection |
-
2017
- 2017-07-05 CN CN201710540111.5A patent/CN109214509B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101809638A (zh) * | 2007-08-09 | 2010-08-18 | 国立大学法人冈山大学 | 运算方法和运算装置 |
WO2017031630A1 (zh) * | 2015-08-21 | 2017-03-02 | 中国科学院自动化研究所 | 基于参数量化的深度卷积神经网络的加速与压缩方法 |
CN105844330A (zh) * | 2016-03-22 | 2016-08-10 | 华为技术有限公司 | 神经网络处理器的数据处理方法及神经网络处理器 |
CN106066783A (zh) * | 2016-06-02 | 2016-11-02 | 华为技术有限公司 | 基于幂次权重量化的神经网络前向运算硬件结构 |
Also Published As
Publication number | Publication date |
---|---|
CN109214509A (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214509B (zh) | 一种用于深度神经网络高速实时量化结构和运算实现方法 | |
CN107340993B (zh) | 运算装置和方法 | |
CN109934331B (zh) | 用于执行人工神经网络正向运算的装置和方法 | |
Vahdat et al. | TOSAM: An energy-efficient truncation-and rounding-based scalable approximate multiplier | |
US10096134B2 (en) | Data compaction and memory bandwidth reduction for sparse neural networks | |
CN111353579A (zh) | 利用反向传播为深度神经网络选择量化参数的方法和系统 | |
CN113424202A (zh) | 针对神经网络训练调整激活压缩 | |
Pilipović et al. | On the design of logarithmic multiplier using radix-4 booth encoding | |
Li et al. | Quantized neural networks with new stochastic multipliers | |
CN109389208B (zh) | 数据的量化装置及量化方法 | |
Choi et al. | Retrain-less weight quantization for multiplier-less convolutional neural networks | |
CN114647399A (zh) | 一种低能耗高精度近似并行定宽乘法累加装置 | |
Ramirez-Agundis et al. | A hardware design of a massive-parallel, modular NN-based vector quantizer for real-time video coding | |
CN112686384A (zh) | 一种自适应比特位宽的神经网络量化方法及其装置 | |
CN112561050A (zh) | 一种神经网络模型训练方法及装置 | |
CN109389209B (zh) | 处理装置及处理方法 | |
Zhan et al. | Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems | |
Cai et al. | Convolution without multiplication: A general speed up strategy for CNNs | |
US20240104342A1 (en) | Methods, systems, and media for low-bit neural networks using bit shift operations | |
KR102340412B1 (ko) | 스토캐스틱 연산을 위한 로그-양자화된 곱셈 및 누적기와 이를 포함하는 가속기 | |
Temenos et al. | A stochastic computing sigma-delta adder architecture for efficient neural network design | |
Sanjeet et al. | Energy-efficient FPGA implementation of power-of-2 weights-based convolutional neural networks with low bit-precision input images | |
CN113516171B (zh) | 基于贝叶斯神经网络随机加法分解结构的图像分类方法 | |
US20230004351A1 (en) | Method and device for additive coding of signals in order to implement digital mac operations with dynamic precision | |
Beura et al. | Design of a Novel Inexact 4: 2 Compressor and Its Placement in the Partial Product Array for Area, Delay, and Power-Efficient Approximate Multipliers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |