CN109472350A - 一种基于块循环稀疏矩阵的神经网络加速系统 - Google Patents
一种基于块循环稀疏矩阵的神经网络加速系统 Download PDFInfo
- Publication number
- CN109472350A CN109472350A CN201811284262.XA CN201811284262A CN109472350A CN 109472350 A CN109472350 A CN 109472350A CN 201811284262 A CN201811284262 A CN 201811284262A CN 109472350 A CN109472350 A CN 109472350A
- Authority
- CN
- China
- Prior art keywords
- matrix
- mask
- neural network
- excitation
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 104
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 230000001133 acceleration Effects 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 62
- 230000005284 excitation Effects 0.000 claims abstract description 49
- 230000006835 compression Effects 0.000 claims abstract description 16
- 238000007906 compression Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 14
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及基于块循环稀疏矩阵的神经网络加速系统,包括:可扩展的处理单元阵列,存储有神经网络的部分权值,对压缩的网络进行解码和运算;主控制器主要负责对运算流程的控制;激励分发单元,在主控制器的控制下,向可扩展的处理单元阵列分发非零的运算数据。有益效果为:有效利用了块循环稀疏矩阵的特点,减轻了稀疏矩阵向量乘运算负载不均衡的问题,提高运算单元利用率;通过利用激励和权重的稀疏性,减少了片上存储的使用,跳过了冗余的运算,从而提高硬件加速器的吞吐率,满足处理深度神经网络的实时性要求。
Description
技术领域
本发明涉及神经网络硬件加速领域,尤其涉及基于块循环稀疏矩阵的神经网络加速系统。
背景技术
深度神经网络由于在图像识别等人工智能应用中取得了当前最优的效果,受到学术界和工业界的广泛关注。深度神经网络规模越来越大,大规模的网络具有计算复杂度高、运算参数量大的特点。与此同时,由于传统的处理器性能和能效的限制,使得大规模的卷积神经网络很难在嵌入式或终端设备上进行实现。在嵌入式系统等资源受限的系统中,对处理器的能效要求很高。因此,在保持深度神经网络识别精度的前提下,压缩网络模型的规模和设计专门的硬件加速器成为了提高处理器能效的一个重要趋势。目前存在多种压缩神经网络的方法,包括剪枝、量化、块循环表示等。基于稀疏神经网络的加速器结构由于不规则的运算,存在负载不均衡的问题。而基于块循环矩阵的加速架构虽然结构规则但却不能够有效地利用激励和权重稀疏性。
发明内容
本发明的目的在于克服以上现有技术之不足,提供一种基于块循环稀疏矩阵的神经网络加速系统,该架构主要针对全连接的深度神经网络,具体有以下技术方案实现:
所述基于块循环稀疏矩阵的神经网络加速系统,包括:
可扩展的处理单元阵列,存储有神经网络的部分权值,对压缩的网络进行解码和运算;
主控制器主要负责对运算流程的控制;
激励分发单元,在主控制器的控制下,向可扩展的处理单元阵列分发非零运算数据。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,所述可扩展的处理单元阵列在执行运算时按块进行循环稀疏矩阵向量乘运算。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,所述可扩展的处理单元阵列通过对掩模矩阵和掩模激励进行按行相与、生成中间掩模矩阵的方式进行解码。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,所述可扩展的处理单元阵列包括
激励FIFO,接收并缓存激励分发单元发出的激励掩模向量vq;
中间掩模解码模块,读取初始的循环向量掩模,并循环生成循环矩阵中的其他几行向量的掩模,生成循环掩模矩阵M;并按行将权重掩模和激励掩模进行解码,生成中间掩模矩阵;
非零值解码模块,根据中间掩模矩阵检索非零值,从激励FIFO中读取相应的非零值;并按照行的顺序输出激励和权重;
运算单元,接收非零值解码模块输出的激励和权重,并将同一行的向量进行累加;结果寄存器,包含和块循环矩阵行数相同的寄存器,分别存储每一行的乘累加结果;
ReLU模块,用于对结果向量进行ReLU操作,并输出运算结果;
输出编码模块,根据所述运算结果生成激励掩模和非零值列表。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,输出编码模块按照输入采用的压缩方式进行编码,或选择直接输出结果的模式。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,可扩展的处理单元阵列解码时,中间掩模解码模块首先读取一个子块的权值矩阵Wij和激励向量vij对应的初始掩模向量和激励掩模向量;将初始掩模向量循环展开成掩模矩阵后,将矩阵中的每一行和激励掩模向量进行按位与的操作,得到中间掩模矩阵;中间掩模解码模块首先根据激励和权重的掩模,计算出需要预取的非零值的个数,再根据中间掩模矩阵的信息,进行从上至下的按行解码,最后计算出相应的非零元素值的地址,取出权重中相应的非零元素值,并传送至运算单元中进行计算。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,中间掩模矩阵中1的位置代表了权值矩阵和激励向量中共同非零元素的位置,若向量值全部为0,则不需要对该块进行计算。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,中间掩模解码模块根据矩阵中1的位置计算出相应的非零元素值的地址。
所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于,所述神经网络加速系统分别对激励和神经网络的权值采用掩模矩阵和非零值列表的压缩方式进行存储。
本发明的优点如下:
本发明提供的基于块循环稀疏矩阵的神经网络加速系统,充分研究了循环稀疏矩阵向量乘的运算特点,利用了循环矩阵和稀疏矩阵的特点,给出了能够同时压缩权重和激励的特定压缩存储方法和硬件解码、编码单元,采用了粗粒度和细粒度跳零相结合的机制。该方法减少了片外数据存储接入过多、能耗过高的问题,降低了片上缓存的容量需求,并且提升了深度神经网络加速器的处理能效和吞吐率。
附图说明
图1块循环矩阵向量乘过程。
图2硬件加速器顶层架构。
图3权值数据分配示意图。
图4稀疏循环矩阵和向量的压缩存储。
图5 PE运算单元架构。
图6解码模块运算示意。
具体实施方式
下面结合附图对本发明方案进行详细说明。
如图1,本实施例的加速器系统,结合了循环和稀疏化两种压缩方式,利用压缩后的神经网络的特点进行加速。该架构有效地利用了压缩权值和激励的特点,具有高吞吐率、低延时的优点。
全连接层的算法计算公式如下:
y=f(Wa+b) (1)
其中,a是计算输入的激励向量,y表示输出向量,b表示偏置,f表示非线性函数,W表示权值矩阵。
公式(1)中输出向量y的每个元素值的运算可以表示:
因此,全连接层的主要运算分为:矩阵向量乘法、非线性函数运算和元素相加运算。其中,矩阵向量乘法计算复杂度最高,同时运算过程中需要进行大量的数据搬移。
假设神经网络权值矩阵采用块循环矩阵进行表示,那么权值矩阵W将会被转换成由多个子循环矩阵组成的矩阵,由Wb表示,如公式(3)所示:
其中,每一个子矩阵Wij c都是一个循环矩阵,其中i∈[1,p],j∈[1,q]。根据循环矩阵的特点,矩阵中的每一行都可以由前一行的循环移位来形成,因此只需要存储循环矩阵的第一行,就可以生成矩阵中其他的行。
将上述块循环矩阵应用到全连接层中后,假设权值矩阵划分为p×q个子矩阵,每个子矩阵的分块大小为k。全连接层中的矩阵向量乘将会变换成如公式(4)所示(省略了ReLU和偏置),输出结果将被划分为多个子向量yi,其中i∈[1,p]
可以看出原来的大的矩阵向量乘,划分成了小块的循环矩阵向量乘运算。采用这种块循环矩阵的方法,可以将矩阵的存储复杂度从O(pqk2)降低到O(pqk)。假设k=4,如图1所示,一个原始权值矩阵划分成了若干个4*4的块循环矩阵,整个大的矩阵向量乘能够分成若干个子循环矩阵向量乘。
由于神经网络中的权值矩阵和输入向量都具有较高的稀疏性,因此可以利用稀疏性来进一步降低计算复杂度和压缩权值存储。针对上述循环矩阵的特点和权值、激励的稀疏性,本实施例提出了基于块循环稀疏矩阵的神经网络加速系统。
本实施例提供的神经网络加速系统用于处理定制的压缩的稀疏矩阵向量乘运算,由可扩展的处理单元(PE)阵列组成,PE阵列内部存储了神经网络的部分权值,按块进行循环稀疏矩阵向量乘运算。加速器整体架构如图2所示,其中,定制的PE单元主要用于对压缩的网络进行解码和计算;主控制器主要负责对运算流程的控制;激励分发单元在主控制器的控制下,向PE组分发运算数据。
权重数据存储在PE单元内部。图3举例说明了权值数据分配给各个PE的方式。假设权值矩阵由8行8列个子循环矩阵构成,那么按列将权值矩阵平均分配到两个PE组中进行并行计算。在每个PE组中,循环子矩阵按行进行平均分配到PE组内部的不同PE上。另外激励向量也按照权值数据划分的位置进行相应的划分,然后输入到不同的PE组中进行运算。一个PE组中的PE单元共用同一块激励SRAM,激励分发单元根据PE的需求同时分发激励。
本实施例采用的权值和激励压缩方法如图4所示,该方法中原始权值矩阵Wb可以由循环掩模矩阵M和非零值矩阵Val来进行存储。矩阵M中存储的是每个块循环矩阵向量中的非零值对应的位置,也就是非零值处为1,零值处为0。非零值矩阵Val用来存储各初始循环向量的非零值,存储方式按行压缩存储。权重按照行的顺序进行存储在PE单元内部的SRAM中。掩模矩阵和非零值矩阵分别用两个SRAM进行存储。
本实施例对输入激励向量x进行压缩处理,激励向量x被分成q段短向量,用xq表示,每段向量长度为k。对于每一段向量xq,用类似于权值压缩的方式进行存储。掩模向量vq表示非零值的位置,非零值向量Vu存储所有的非零元素。激励掩模向量按照顺序存储在激励掩模SRAM中,激励非零值按照激励掩模存储顺序存储在激励值SRAM中。
本实施例中采用的PE单元架构如图5所示,该PE单元内部包含激励FIFO,中间掩模解码模块,非零值解码模块,计算单元,结果寄存,ReLU模块和输出编码模块。下面分别介绍几个模块的功能。激励FIFO用于缓存激励分发单元传来的激励掩模向量vq。中间掩模解码模块用于读取权重掩模(初始的循环向量掩模),并循环生成循环矩阵中的其他几行向量的掩模,即生成循环掩模矩阵M。然后该模块按行将权重掩模和激励掩模进行解码,生成中间掩模矩阵。非零值解码模块根据中间掩模矩阵检索非零值,从激励FIFO中读取相应的非零值。然后按照行的顺序将激励和权重送入计算单元中进行计算。同一行的向量进行累加,存储到结果寄存器中。结果寄存器中包含和块循环矩阵行数相同的寄存器,分别存储每一行的乘累加结果。ReLU单元用于对结果向量进行ReLU操作,并将运算结果送给输出编码模块生成激励掩模和非零值列表。输出编码模块可以按照输入采用的压缩方式进行编码,也可选择直接输出结果的模式。
下面介绍硬件设计中的解码步骤。解码过程如图6所示,中间掩模解码模块首先读取一个子块的权值矩阵Wij和激励向量vij对应的初始掩模向量和激励掩模向量。将初始掩模向量循环展开成掩模矩阵,然后将矩阵中的每一行和激励掩模向量进行按位与的操作,得到中间掩模矩阵。矩阵中1的位置代表了权值矩阵和激励向量中共同非零元素的位置。若向量值全部为0,则不需要对该块进行计算。中间掩模解码模块首先根据激励和权重的掩模,计算出需要预取的非零值的个数。然后根据中间掩模矩阵的信息,按照如图所示的顺序进行解码,即从上至下的按行解码。根据1所在位置,该模块可以计算出相应的非零元素值的地址,取出权重中相应的非零元素值,送到运算单元中进行计算。
Claims (9)
1.一种基于块循环稀疏矩阵的神经网络加速系统,其特征在于包括:
可扩展的处理单元阵列,存储有神经网络的部分权值,对压缩的网络进行解码和运算;
主控制器主要负责对运算流程的控制;
激励分发单元,在主控制器的控制下,向可扩展的处理单元阵列分发非零的运算数据。
2.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于所述可扩展的处理单元阵列在执行运算时按块进行循环稀疏矩阵向量乘运算。
3.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于所述可扩展的处理单元阵列通过对掩模矩阵和掩模激励进行按行相与、生成中间掩模矩阵的方式进行解码。
4.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于,所述可扩展的处理单元阵列包括
激励FIFO,接收并缓存激励分发单元发出的激励掩模向量vq;
中间掩模解码模块,读取初始的循环向量掩模,并循环生成循环矩阵中的其他几行向量的掩模,生成循环掩模矩阵M;并按行将权重掩模和激励掩模进行解码,生成中间掩模矩阵;
非零值解码模块,根据中间掩模矩阵检索非零值,从激励FIFO中读取相应的非零值;并按照行的顺序输出激励和权重;
运算单元,接收非零值解码模块输出的激励和权重,并将同一行的向量进行累加;
结果寄存器,包含和块循环矩阵行数相同的寄存器,分别存储每一行的乘累加结果;
ReLU模块,用于对结果向量进行ReLU操作,并输出运算结果;
输出编码模块,根据所述运算结果生成激励掩模和非零值列表。
5.根据权利要求4所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于输出编码模块按照输入采用的压缩方式进行编码,或选择直接输出结果的模式。
6.根据权利要求4所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于可扩展的处理单元阵列解码时,中间掩模解码模块首先读取一个子块的权值矩阵Wij和激励向量vij对应的初始掩模向量和激励掩模向量;将初始掩模向量循环展开成掩模矩阵后,将矩阵中的每一行和激励掩模向量进行按位与的操作,得到中间掩模矩阵;中间掩模解码模块首先根据激励和权重的掩模,计算出需要预取的非零值的个数,再根据中间掩模矩阵的信息,进行从上至下的按行解码,最后计算出相应的非零元素值的地址,取出权重中相应的非零元素值,并传送至运算单元中进行计算。
7.根据权利要求6所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于中间掩模矩阵中1的位置代表了权值矩阵和激励向量中共同非零元素的位置,若向量值全部为0,则不需要对该块进行计算。
8.根据权利要求7所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于中间掩模解码模块根据矩阵中1的位置计算出相应的非零元素值的地址。
9.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统,其特征在于所述神经网络加速系统分别对激励和神经网络的权值采用掩模矩阵和非零值列表的压缩方式进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811284262.XA CN109472350B (zh) | 2018-10-30 | 2018-10-30 | 一种基于块循环稀疏矩阵的神经网络加速系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811284262.XA CN109472350B (zh) | 2018-10-30 | 2018-10-30 | 一种基于块循环稀疏矩阵的神经网络加速系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109472350A true CN109472350A (zh) | 2019-03-15 |
CN109472350B CN109472350B (zh) | 2021-11-16 |
Family
ID=65672419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811284262.XA Active CN109472350B (zh) | 2018-10-30 | 2018-10-30 | 一种基于块循环稀疏矩阵的神经网络加速系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472350B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
CN110110851A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种lstm神经网络的fpga加速器及其加速方法 |
CN110147347A (zh) * | 2019-03-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 用于矩阵处理的芯片、矩阵处理方法、装置及存储介质 |
CN110378468A (zh) * | 2019-07-08 | 2019-10-25 | 浙江大学 | 一种基于结构化剪枝和低比特量化的神经网络加速器 |
CN110851779A (zh) * | 2019-10-16 | 2020-02-28 | 北京航空航天大学 | 用于稀疏矩阵运算的脉动阵列架构 |
CN110889259A (zh) * | 2019-11-06 | 2020-03-17 | 北京中科胜芯科技有限公司 | 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元 |
CN111008698A (zh) * | 2019-11-23 | 2020-04-14 | 复旦大学 | 用于混合压缩循环神经网络的稀疏矩阵乘法加速器 |
CN111079919A (zh) * | 2019-11-21 | 2020-04-28 | 清华大学 | 支持权重稀疏的存内计算架构及其数据输出方法 |
CN111078189A (zh) * | 2019-11-23 | 2020-04-28 | 复旦大学 | 用于循环神经网络自然语言处理的稀疏矩阵乘法加速器 |
CN111445013A (zh) * | 2020-04-28 | 2020-07-24 | 南京大学 | 一种针对卷积神经网络的非零探测器及其方法 |
CN111723922A (zh) * | 2019-03-20 | 2020-09-29 | 爱思开海力士有限公司 | 神经网络加速装置及其控制方法 |
CN112015472A (zh) * | 2020-07-16 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112215349A (zh) * | 2020-09-16 | 2021-01-12 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及装置 |
TWI742802B (zh) * | 2020-08-18 | 2021-10-11 | 創鑫智慧股份有限公司 | 矩陣運算裝置及其操作方法 |
CN113537488A (zh) * | 2021-06-29 | 2021-10-22 | 杭州电子科技大学 | 一种基于稀疏向量矩阵计算的神经网络加速器及加速方法 |
CN113901747A (zh) * | 2021-10-14 | 2022-01-07 | 北京大学 | 一种可配置稀疏注意力机制的硬件加速器 |
CN113918882A (zh) * | 2021-10-25 | 2022-01-11 | 北京大学 | 可硬件实现的动态稀疏注意力机制的数据处理加速方法 |
US11269973B2 (en) | 2020-04-28 | 2022-03-08 | Hewlett Packard Enterprise Development Lp | Crossbar allocation for matrix-vector multiplications |
CN115115018A (zh) * | 2021-03-19 | 2022-09-27 | 南京大学 | 一种用于长短记忆神经网络的加速系统 |
EP4109451A1 (fr) * | 2021-06-25 | 2022-12-28 | Commissariat à l'énergie atomique et aux énergies alternatives | Circuit de memorisation de donnees parcimonieuses |
CN115828044A (zh) * | 2023-02-17 | 2023-03-21 | 绍兴埃瓦科技有限公司 | 基于神经网络双重稀疏性矩阵乘法运算电路、方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN107633298A (zh) * | 2017-03-10 | 2018-01-26 | 南京大学 | 一种基于模型压缩的递归神经网络加速器的硬件架构 |
CN108229656A (zh) * | 2016-12-14 | 2018-06-29 | 上海寒武纪信息科技有限公司 | 神经网络运算装置及方法 |
US20180189056A1 (en) * | 2016-12-29 | 2018-07-05 | Qualcomm Incorporated | Architecture for sparse neural network acceleration |
CN108710943A (zh) * | 2018-05-21 | 2018-10-26 | 南京大学 | 一种多层前馈神经网络并行加速器 |
-
2018
- 2018-10-30 CN CN201811284262.XA patent/CN109472350B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN108229656A (zh) * | 2016-12-14 | 2018-06-29 | 上海寒武纪信息科技有限公司 | 神经网络运算装置及方法 |
US20180189056A1 (en) * | 2016-12-29 | 2018-07-05 | Qualcomm Incorporated | Architecture for sparse neural network acceleration |
CN107633298A (zh) * | 2017-03-10 | 2018-01-26 | 南京大学 | 一种基于模型压缩的递归神经网络加速器的硬件架构 |
CN108710943A (zh) * | 2018-05-21 | 2018-10-26 | 南京大学 | 一种多层前馈神经网络并行加速器 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147347A (zh) * | 2019-03-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 用于矩阵处理的芯片、矩阵处理方法、装置及存储介质 |
CN110147347B (zh) * | 2019-03-18 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 用于矩阵处理的芯片、矩阵处理方法、装置及存储介质 |
CN111723922A (zh) * | 2019-03-20 | 2020-09-29 | 爱思开海力士有限公司 | 神经网络加速装置及其控制方法 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
CN110110851A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种lstm神经网络的fpga加速器及其加速方法 |
CN110378468A (zh) * | 2019-07-08 | 2019-10-25 | 浙江大学 | 一种基于结构化剪枝和低比特量化的神经网络加速器 |
WO2021004366A1 (zh) * | 2019-07-08 | 2021-01-14 | 浙江大学 | 基于结构化剪枝和低比特量化的神经网络加速器及方法 |
CN110851779B (zh) * | 2019-10-16 | 2021-09-14 | 北京航空航天大学 | 用于稀疏矩阵运算的脉动阵列架构 |
CN110851779A (zh) * | 2019-10-16 | 2020-02-28 | 北京航空航天大学 | 用于稀疏矩阵运算的脉动阵列架构 |
CN110889259B (zh) * | 2019-11-06 | 2021-07-09 | 北京中科胜芯科技有限公司 | 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元 |
CN110889259A (zh) * | 2019-11-06 | 2020-03-17 | 北京中科胜芯科技有限公司 | 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元 |
CN111079919B (zh) * | 2019-11-21 | 2022-05-20 | 清华大学 | 支持权重稀疏的存内计算架构及其数据输出方法 |
CN111079919A (zh) * | 2019-11-21 | 2020-04-28 | 清华大学 | 支持权重稀疏的存内计算架构及其数据输出方法 |
CN111078189B (zh) * | 2019-11-23 | 2023-05-02 | 复旦大学 | 用于循环神经网络自然语言处理的稀疏矩阵乘法加速器 |
CN111008698A (zh) * | 2019-11-23 | 2020-04-14 | 复旦大学 | 用于混合压缩循环神经网络的稀疏矩阵乘法加速器 |
CN111078189A (zh) * | 2019-11-23 | 2020-04-28 | 复旦大学 | 用于循环神经网络自然语言处理的稀疏矩阵乘法加速器 |
CN111008698B (zh) * | 2019-11-23 | 2023-05-02 | 复旦大学 | 用于混合压缩循环神经网络的稀疏矩阵乘法加速器 |
CN111445013B (zh) * | 2020-04-28 | 2023-04-25 | 南京大学 | 一种针对卷积神经网络的非零探测器及其方法 |
US11269973B2 (en) | 2020-04-28 | 2022-03-08 | Hewlett Packard Enterprise Development Lp | Crossbar allocation for matrix-vector multiplications |
CN111445013A (zh) * | 2020-04-28 | 2020-07-24 | 南京大学 | 一种针对卷积神经网络的非零探测器及其方法 |
CN112015472B (zh) * | 2020-07-16 | 2023-12-12 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015472A (zh) * | 2020-07-16 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
TWI742802B (zh) * | 2020-08-18 | 2021-10-11 | 創鑫智慧股份有限公司 | 矩陣運算裝置及其操作方法 |
CN112215349A (zh) * | 2020-09-16 | 2021-01-12 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及装置 |
CN112215349B (zh) * | 2020-09-16 | 2024-01-12 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及装置 |
CN115115018A (zh) * | 2021-03-19 | 2022-09-27 | 南京大学 | 一种用于长短记忆神经网络的加速系统 |
EP4109451A1 (fr) * | 2021-06-25 | 2022-12-28 | Commissariat à l'énergie atomique et aux énergies alternatives | Circuit de memorisation de donnees parcimonieuses |
FR3124636A1 (fr) * | 2021-06-25 | 2022-12-30 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Circuit de mémorisation de données parcimonieuses |
US11886719B2 (en) | 2021-06-25 | 2024-01-30 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Memory circuit for storing parsimonious data |
CN113537488A (zh) * | 2021-06-29 | 2021-10-22 | 杭州电子科技大学 | 一种基于稀疏向量矩阵计算的神经网络加速器及加速方法 |
CN113901747A (zh) * | 2021-10-14 | 2022-01-07 | 北京大学 | 一种可配置稀疏注意力机制的硬件加速器 |
CN113901747B (zh) * | 2021-10-14 | 2024-07-16 | 北京大学 | 一种可配置稀疏注意力机制的硬件加速器 |
CN113918882A (zh) * | 2021-10-25 | 2022-01-11 | 北京大学 | 可硬件实现的动态稀疏注意力机制的数据处理加速方法 |
CN115828044A (zh) * | 2023-02-17 | 2023-03-21 | 绍兴埃瓦科技有限公司 | 基于神经网络双重稀疏性矩阵乘法运算电路、方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109472350B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472350A (zh) | 一种基于块循环稀疏矩阵的神经网络加速系统 | |
US10691996B2 (en) | Hardware accelerator for compressed LSTM | |
CN110378468B (zh) | 一种基于结构化剪枝和低比特量化的神经网络加速器 | |
US10810484B2 (en) | Hardware accelerator for compressed GRU on FPGA | |
Verhelst et al. | Embedded deep neural network processing: Algorithmic and processor techniques bring deep learning to iot and edge devices | |
Fowers et al. | A configurable cloud-scale DNN processor for real-time AI | |
CN111062472B (zh) | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 | |
Mahmoud et al. | Diffy: A Déjà vu-free differential deep neural network accelerator | |
CN107239829B (zh) | 一种优化人工神经网络的方法 | |
US10698657B2 (en) | Hardware accelerator for compressed RNN on FPGA | |
US11763156B2 (en) | Neural network compression based on bank-balanced sparsity | |
US11847553B2 (en) | Parallel computational architecture with reconfigurable core-level and vector-level parallelism | |
US20180046895A1 (en) | Device and method for implementing a sparse neural network | |
WO2021080873A1 (en) | Structured pruning for machine learning model | |
CN108665063A (zh) | 用于bnn硬件加速器的双向并行处理卷积加速系统 | |
CN106502964B (zh) | 一种基于Spark的极限学习机并行化计算方法 | |
CN107341133A (zh) | 基于任意维数矩阵lu分解的可重构计算结构的调度方法 | |
Xie et al. | Energy efficiency enhancement for cnn-based deep mobile sensing | |
Zhang et al. | Implementation and optimization of the accelerator based on FPGA hardware for LSTM network | |
Liu et al. | High-performance tensor learning primitives using GPU tensor cores | |
Liu et al. | Algorithm and hardware co-design co-optimization framework for LSTM accelerator using quantized fully decomposed tensor train | |
Huang et al. | Rct: Resource constrained training for edge ai | |
WO2022016261A1 (en) | System and method for accelerating training of deep learning networks | |
CN110196735A (zh) | 一种计算装置及相关产品 | |
US20240281376A1 (en) | Decompressing non-contiguous blocks of data using instruction-based direct-memory access (dma) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |