CN109472350A

CN109472350A - 一种基于块循环稀疏矩阵的神经网络加速系统

Info

Publication number: CN109472350A
Application number: CN201811284262.XA
Authority: CN
Inventors: 潘红兵; 秦子迪; 朱志炜; 郭良蛟; 查弈; 陈轩; 沈庆宏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-03-15
Anticipated expiration: 2038-10-30
Also published as: CN109472350B

Abstract

本发明涉及基于块循环稀疏矩阵的神经网络加速系统，包括：可扩展的处理单元阵列，存储有神经网络的部分权值，对压缩的网络进行解码和运算；主控制器主要负责对运算流程的控制；激励分发单元，在主控制器的控制下，向可扩展的处理单元阵列分发非零的运算数据。有益效果为：有效利用了块循环稀疏矩阵的特点，减轻了稀疏矩阵向量乘运算负载不均衡的问题，提高运算单元利用率；通过利用激励和权重的稀疏性，减少了片上存储的使用，跳过了冗余的运算，从而提高硬件加速器的吞吐率，满足处理深度神经网络的实时性要求。

Description

一种基于块循环稀疏矩阵的神经网络加速系统

技术领域

本发明涉及神经网络硬件加速领域，尤其涉及基于块循环稀疏矩阵的神经网络加速系统。

背景技术

深度神经网络由于在图像识别等人工智能应用中取得了当前最优的效果，受到学术界和工业界的广泛关注。深度神经网络规模越来越大，大规模的网络具有计算复杂度高、运算参数量大的特点。与此同时，由于传统的处理器性能和能效的限制，使得大规模的卷积神经网络很难在嵌入式或终端设备上进行实现。在嵌入式系统等资源受限的系统中，对处理器的能效要求很高。因此，在保持深度神经网络识别精度的前提下，压缩网络模型的规模和设计专门的硬件加速器成为了提高处理器能效的一个重要趋势。目前存在多种压缩神经网络的方法，包括剪枝、量化、块循环表示等。基于稀疏神经网络的加速器结构由于不规则的运算，存在负载不均衡的问题。而基于块循环矩阵的加速架构虽然结构规则但却不能够有效地利用激励和权重稀疏性。

发明内容

本发明的目的在于克服以上现有技术之不足，提供一种基于块循环稀疏矩阵的神经网络加速系统，该架构主要针对全连接的深度神经网络，具体有以下技术方案实现：

所述基于块循环稀疏矩阵的神经网络加速系统，包括：

可扩展的处理单元阵列，存储有神经网络的部分权值，对压缩的网络进行解码和运算；

主控制器主要负责对运算流程的控制；

激励分发单元，在主控制器的控制下，向可扩展的处理单元阵列分发非零运算数据。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，所述可扩展的处理单元阵列在执行运算时按块进行循环稀疏矩阵向量乘运算。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，所述可扩展的处理单元阵列通过对掩模矩阵和掩模激励进行按行相与、生成中间掩模矩阵的方式进行解码。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，所述可扩展的处理单元阵列包括

激励FIFO，接收并缓存激励分发单元发出的激励掩模向量v^q；

中间掩模解码模块，读取初始的循环向量掩模，并循环生成循环矩阵中的其他几行向量的掩模，生成循环掩模矩阵M；并按行将权重掩模和激励掩模进行解码，生成中间掩模矩阵；

非零值解码模块，根据中间掩模矩阵检索非零值，从激励FIFO中读取相应的非零值；并按照行的顺序输出激励和权重；

运算单元，接收非零值解码模块输出的激励和权重，并将同一行的向量进行累加；结果寄存器，包含和块循环矩阵行数相同的寄存器，分别存储每一行的乘累加结果；

ReLU模块，用于对结果向量进行ReLU操作，并输出运算结果；

输出编码模块，根据所述运算结果生成激励掩模和非零值列表。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，输出编码模块按照输入采用的压缩方式进行编码，或选择直接输出结果的模式。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，可扩展的处理单元阵列解码时，中间掩模解码模块首先读取一个子块的权值矩阵W_ij和激励向量v_ij对应的初始掩模向量和激励掩模向量；将初始掩模向量循环展开成掩模矩阵后，将矩阵中的每一行和激励掩模向量进行按位与的操作，得到中间掩模矩阵；中间掩模解码模块首先根据激励和权重的掩模，计算出需要预取的非零值的个数，再根据中间掩模矩阵的信息，进行从上至下的按行解码，最后计算出相应的非零元素值的地址，取出权重中相应的非零元素值，并传送至运算单元中进行计算。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，中间掩模矩阵中1的位置代表了权值矩阵和激励向量中共同非零元素的位置，若向量值全部为0，则不需要对该块进行计算。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，中间掩模解码模块根据矩阵中1的位置计算出相应的非零元素值的地址。

所述基于块循环稀疏矩阵的神经网络加速系统的进一步设计于，所述神经网络加速系统分别对激励和神经网络的权值采用掩模矩阵和非零值列表的压缩方式进行存储。

本发明的优点如下：

本发明提供的基于块循环稀疏矩阵的神经网络加速系统，充分研究了循环稀疏矩阵向量乘的运算特点，利用了循环矩阵和稀疏矩阵的特点，给出了能够同时压缩权重和激励的特定压缩存储方法和硬件解码、编码单元，采用了粗粒度和细粒度跳零相结合的机制。该方法减少了片外数据存储接入过多、能耗过高的问题，降低了片上缓存的容量需求，并且提升了深度神经网络加速器的处理能效和吞吐率。

附图说明

图1块循环矩阵向量乘过程。

图2硬件加速器顶层架构。

图3权值数据分配示意图。

图4稀疏循环矩阵和向量的压缩存储。

图5 PE运算单元架构。

图6解码模块运算示意。

具体实施方式

下面结合附图对本发明方案进行详细说明。

如图1，本实施例的加速器系统，结合了循环和稀疏化两种压缩方式，利用压缩后的神经网络的特点进行加速。该架构有效地利用了压缩权值和激励的特点，具有高吞吐率、低延时的优点。

全连接层的算法计算公式如下：

y＝f(Wa+b) (1)

其中，a是计算输入的激励向量，y表示输出向量，b表示偏置，f表示非线性函数，W表示权值矩阵。

公式(1)中输出向量y的每个元素值的运算可以表示：

因此，全连接层的主要运算分为：矩阵向量乘法、非线性函数运算和元素相加运算。其中，矩阵向量乘法计算复杂度最高，同时运算过程中需要进行大量的数据搬移。

假设神经网络权值矩阵采用块循环矩阵进行表示，那么权值矩阵W将会被转换成由多个子循环矩阵组成的矩阵，由W^b表示，如公式(3)所示：

其中，每一个子矩阵W_ij ^c都是一个循环矩阵，其中i∈[1,p],j∈[1,q]。根据循环矩阵的特点，矩阵中的每一行都可以由前一行的循环移位来形成，因此只需要存储循环矩阵的第一行，就可以生成矩阵中其他的行。

将上述块循环矩阵应用到全连接层中后，假设权值矩阵划分为p×q个子矩阵，每个子矩阵的分块大小为k。全连接层中的矩阵向量乘将会变换成如公式(4)所示(省略了ReLU和偏置)，输出结果将被划分为多个子向量yⁱ，其中i∈[1,p]

可以看出原来的大的矩阵向量乘，划分成了小块的循环矩阵向量乘运算。采用这种块循环矩阵的方法，可以将矩阵的存储复杂度从O(pqk²)降低到O(pqk)。假设k＝4，如图1所示，一个原始权值矩阵划分成了若干个4*4的块循环矩阵，整个大的矩阵向量乘能够分成若干个子循环矩阵向量乘。

由于神经网络中的权值矩阵和输入向量都具有较高的稀疏性，因此可以利用稀疏性来进一步降低计算复杂度和压缩权值存储。针对上述循环矩阵的特点和权值、激励的稀疏性，本实施例提出了基于块循环稀疏矩阵的神经网络加速系统。

本实施例提供的神经网络加速系统用于处理定制的压缩的稀疏矩阵向量乘运算，由可扩展的处理单元(PE)阵列组成，PE阵列内部存储了神经网络的部分权值，按块进行循环稀疏矩阵向量乘运算。加速器整体架构如图2所示，其中，定制的PE单元主要用于对压缩的网络进行解码和计算；主控制器主要负责对运算流程的控制；激励分发单元在主控制器的控制下，向PE组分发运算数据。

权重数据存储在PE单元内部。图3举例说明了权值数据分配给各个PE的方式。假设权值矩阵由8行8列个子循环矩阵构成，那么按列将权值矩阵平均分配到两个PE组中进行并行计算。在每个PE组中，循环子矩阵按行进行平均分配到PE组内部的不同PE上。另外激励向量也按照权值数据划分的位置进行相应的划分，然后输入到不同的PE组中进行运算。一个PE组中的PE单元共用同一块激励SRAM，激励分发单元根据PE的需求同时分发激励。

本实施例采用的权值和激励压缩方法如图4所示，该方法中原始权值矩阵W^b可以由循环掩模矩阵M和非零值矩阵Val来进行存储。矩阵M中存储的是每个块循环矩阵向量中的非零值对应的位置，也就是非零值处为1，零值处为0。非零值矩阵Val用来存储各初始循环向量的非零值，存储方式按行压缩存储。权重按照行的顺序进行存储在PE单元内部的SRAM中。掩模矩阵和非零值矩阵分别用两个SRAM进行存储。

本实施例对输入激励向量x进行压缩处理，激励向量x被分成q段短向量，用x_q表示，每段向量长度为k。对于每一段向量x_q，用类似于权值压缩的方式进行存储。掩模向量v^q表示非零值的位置，非零值向量V^u存储所有的非零元素。激励掩模向量按照顺序存储在激励掩模SRAM中，激励非零值按照激励掩模存储顺序存储在激励值SRAM中。

本实施例中采用的PE单元架构如图5所示，该PE单元内部包含激励FIFO，中间掩模解码模块，非零值解码模块，计算单元，结果寄存，ReLU模块和输出编码模块。下面分别介绍几个模块的功能。激励FIFO用于缓存激励分发单元传来的激励掩模向量v^q。中间掩模解码模块用于读取权重掩模(初始的循环向量掩模)，并循环生成循环矩阵中的其他几行向量的掩模，即生成循环掩模矩阵M。然后该模块按行将权重掩模和激励掩模进行解码，生成中间掩模矩阵。非零值解码模块根据中间掩模矩阵检索非零值，从激励FIFO中读取相应的非零值。然后按照行的顺序将激励和权重送入计算单元中进行计算。同一行的向量进行累加，存储到结果寄存器中。结果寄存器中包含和块循环矩阵行数相同的寄存器，分别存储每一行的乘累加结果。ReLU单元用于对结果向量进行ReLU操作，并将运算结果送给输出编码模块生成激励掩模和非零值列表。输出编码模块可以按照输入采用的压缩方式进行编码，也可选择直接输出结果的模式。

下面介绍硬件设计中的解码步骤。解码过程如图6所示，中间掩模解码模块首先读取一个子块的权值矩阵W_ij和激励向量v_ij对应的初始掩模向量和激励掩模向量。将初始掩模向量循环展开成掩模矩阵，然后将矩阵中的每一行和激励掩模向量进行按位与的操作，得到中间掩模矩阵。矩阵中1的位置代表了权值矩阵和激励向量中共同非零元素的位置。若向量值全部为0，则不需要对该块进行计算。中间掩模解码模块首先根据激励和权重的掩模，计算出需要预取的非零值的个数。然后根据中间掩模矩阵的信息，按照如图所示的顺序进行解码，即从上至下的按行解码。根据1所在位置，该模块可以计算出相应的非零元素值的地址，取出权重中相应的非零元素值，送到运算单元中进行计算。

Claims

1.一种基于块循环稀疏矩阵的神经网络加速系统，其特征在于包括：

主控制器主要负责对运算流程的控制；

激励分发单元，在主控制器的控制下，向可扩展的处理单元阵列分发非零的运算数据。

2.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于所述可扩展的处理单元阵列在执行运算时按块进行循环稀疏矩阵向量乘运算。

3.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于所述可扩展的处理单元阵列通过对掩模矩阵和掩模激励进行按行相与、生成中间掩模矩阵的方式进行解码。

4.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于，所述可扩展的处理单元阵列包括

激励FIFO，接收并缓存激励分发单元发出的激励掩模向量v^q；

运算单元，接收非零值解码模块输出的激励和权重，并将同一行的向量进行累加；

结果寄存器，包含和块循环矩阵行数相同的寄存器，分别存储每一行的乘累加结果；

ReLU模块，用于对结果向量进行ReLU操作，并输出运算结果；

5.根据权利要求4所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于输出编码模块按照输入采用的压缩方式进行编码，或选择直接输出结果的模式。

6.根据权利要求4所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于可扩展的处理单元阵列解码时，中间掩模解码模块首先读取一个子块的权值矩阵W_ij和激励向量v_ij对应的初始掩模向量和激励掩模向量；将初始掩模向量循环展开成掩模矩阵后，将矩阵中的每一行和激励掩模向量进行按位与的操作，得到中间掩模矩阵；中间掩模解码模块首先根据激励和权重的掩模，计算出需要预取的非零值的个数，再根据中间掩模矩阵的信息，进行从上至下的按行解码，最后计算出相应的非零元素值的地址，取出权重中相应的非零元素值，并传送至运算单元中进行计算。

7.根据权利要求6所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于中间掩模矩阵中1的位置代表了权值矩阵和激励向量中共同非零元素的位置，若向量值全部为0，则不需要对该块进行计算。

8.根据权利要求7所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于中间掩模解码模块根据矩阵中1的位置计算出相应的非零元素值的地址。

9.根据权利要求1所述的基于块循环稀疏矩阵的神经网络加速系统，其特征在于所述神经网络加速系统分别对激励和神经网络的权值采用掩模矩阵和非零值列表的压缩方式进行存储。