CN109993297A

CN109993297A - 一种负载均衡的稀疏卷积神经网络加速器及其加速方法

Info

Publication number: CN109993297A
Application number: CN201910259591.7A
Authority: CN
Inventors: 王瑶; 朱志炜; 秦子迪; 苏岩; 王宇宣
Original assignee: Nanjing Jixiang Sensing And Imaging Technology Research Institute Co Ltd
Current assignee: Nanjing Jixiang Sensing And Imaging Technology Research Institute Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-07-09

Abstract

本发明公开了一种负载均衡的稀疏卷积神经网络加速器及其加速方法。加速器包括主控制器、数据分发模块、卷积运算的计算阵列、输出结果缓存模块、线性激活函数单元、池化单元、在线编码单元和片外动态存储器。本发明的方案可以在很少的存储资源条件下实现卷积运算的计算阵列高效率运算，保证输入激励和权重数据的高复用率，计算阵列的负载均衡和高利用率；同时计算阵列支持通过静态配置的方式实现不同尺寸不同规模的卷积运算，以及行列间和不同特征图间两个层面的并行调度，具有很好的适用性和扩展性。

Description

一种负载均衡的稀疏卷积神经网络加速器及其加速方法

技术领域

本发明涉及一种负载均衡的稀疏卷积神经网络加速器及其加速方法，属于深度学习算法的技术领域。

背景技术

近些年来，深度学习算法在计算机视觉、自然语言处理和语音识别等方面获得了广泛的应用和卓越的效果，而卷积神经网络CNN是其中最重要的算法之一。卷积神经网络模型更高的准确率常常意味着更深的网络层数，以及更多的网络参数和运算量，其中90％的计算都集中在卷积层上，因此为了更好地在嵌入式系统上高效率运行卷积神经网络，优化卷积操作的能效比势在必行。

卷积神经网络CNN卷积层运算的主要特点有两个：一是运算的数据量大，卷积运算所需的特征图片和权重数据规模庞大，对其进行稀疏化并压缩存储可以很好地节省数据存储单元，最大化地利用数据传输带宽；二是运算数据流和控制流复杂，卷积运算需要根据卷积维度信息同时处理多个卷积核的多个通道，保证运算的流水进行。

稀疏化的卷积神经网络由于非零元素的不规则分布，计算过程中会增加无效计算，导致运算资源闲置率高。

发明内容

针对上述现有技术存在的问题，本发明旨在提供一种高效率负载均衡的稀疏卷积神经网络加速器，以实现权重和激励数据复用率高、数据传输量小、可扩展可并行度高以及所需硬件存储资源和DSP资源少的目的。本发明的另一目的是提供一种利用该加速器的加速方法。

本发明加速器采用的技术方案是：

一种负载均衡的稀疏卷积神经网络加速器，包括：主控制器，用于控制卷积运算的控制信号流和数据流，对数据进行处理和保存；数据分发模块，根据卷积运算的分块方案对计算阵列进行权重数据分发；卷积运算的计算阵列，用于完成稀疏卷积的乘加运算操作，输出部分和的结果；输出结果缓存模块，用于对计算阵列的部分和的结果进行累加缓存，并整理成统一格式，输出待激活处理和池化的特征图结果；线性激活函数单元，用于对累加完成的部分和结果的加偏置和激活函数操作；池化单元，用于对经激活函数处理后的结果的池化操作；在线编码单元，用于对仍需进行后续卷积层运算的激励值进行在线编码；片外动态存储器，用于存储原始图像数据、计算阵列运算的中间结果和最终输出的特征图。

本发明一种负载均衡的稀疏卷积神经网络加速器的加速方法，包括以下步骤：

1)对卷积神经网络模型权重数据进行剪枝，根据权重数据的规模参数对数据进行分组，然后在保证模型整体准确率的基础上对各组权重数据采取相同的剪枝方式进行稀疏化处理；

2)制定负载均衡的稀疏卷积运算映射方案，将稀疏化后的卷积神经网络映射到加速器的卷积运算的计算阵列上；

3)加速器根据映射方案的配置信息重构计算阵列和存储阵列，保证卷积运算的流水进行；

4)主控制器控制数据分发模块完成权重数据和激励数据的分发，计算阵列进行运算，输出卷积部分和结果；

5)对所述卷积部分和结果进行累加并线性修正，即完成加偏置和激活函数操作；

6)依据当前卷积层池化需求进行相应池化核尺寸和步长的池化操作；

7)判断当前卷积层操作是否为最后一层，如果不是，则进行在线编码，将编码后的激励结果送往下一层卷积，如果是，则输出到片外动态存储器，完成卷积神经网络的加速。

与现有技术相比，本发明的优点是：

本发明提供的一种负载均衡的稀疏卷积神经网络加速器及其加速方法，最大化地利用卷积运算数据的稀疏特性，可以在很少的存储资源条件下实现卷积运算的计算阵列高效率运算，保证输入激励和权重数据的高复用率，运算阵列的负载均衡和高利用率；同时计算阵列支持通过静态配置的方式实现不同尺寸不同规模的卷积运算，以及行列间和不同特征图间两个层面的并行调度，具有很好的适用性和扩展性。本发明的设计可以很好地满足目前在嵌入式系统下运行卷积神经网络的低功耗高能效比的需求。

附图说明

图1是负载均衡的稀疏卷积网络加速方法示意图。

图2是权重剪枝方式示意图。

图3是硬件加速器整体结构示意图。

图4是卷积运算映射方式示意图。

图5是PE组内卷积运算方式示意图。

图6是PE阵列负载均衡以及存储共享的实现示意图。

具体实施方式

下面结合附图对本发明方案进行详细说明。

如图1所示为负载均衡的稀疏卷积网络运算方法流程示意图，首先会对卷积神经网络模型权重数据进行剪枝，根据权重数据的规模参数对数据进行分组，然后在保证模型整体准确率的基础上对各组权重数据采取相同的剪枝方式进行稀疏化处理；然后根据卷积运算输入特征图和卷积核尺寸制定负载均衡的稀疏卷积运算映射方案，将稀疏化后的卷积神经网络映射到硬件加速器的卷积运算的PE(Process Element运算单元)阵列上；接着硬件加速器根据映射方案的配置信息重构PE阵列和存储阵列，保证卷积运算的流水进行；加速器的主控制器会控制完成权重数据和激励数据的分发，PE阵列进行运算，输出卷积部分和结果；线性修正单元对部分和结果进行累加并线性修正，即完成加偏置和激活函数操作；池化单元依据当前卷积层池化需求进行相应池化核尺寸和步长的池化操作，包括选择最大值池化还是平均值池化；最后会判断当前卷积层操作是否为最后一层，如果不是，则进行在线编码，将编码后的激励结果送往下一层卷积，如果是，则输出到片外存储，完成整个卷积加速。

负载均衡的稀疏卷积运算映射方案包括卷积运算映射方式、PE阵列分组方案、输入特征图片和权重数据的分发复用方式、以及PE阵列运算并行调度机制。

卷积运算映射方式：将输入特征图片按照行(列)维度展成一个矩阵，将权重数据按照输出通道维度展开成一个向量，从而把卷积运算转化成矩阵向量乘运算，通过设计的稀疏矩阵向量乘运算单元可以很好地跳过输入特征图片和权重数据中的零值，保证整体运算的高效率。

PE阵列分组方案：按照每层卷积运算的尺寸参数信息由主控制器静态配置完成分组运算，PE个数大于三维卷积核总个数时，一组会计算所有输出特征图通道，在此基础上，剩余PE按相同个数分组，负责计算输出特征图的不同行；PE个数小于三维卷积核总个数时，一组计算输出特征图通道数的最大约数，这样分组的原则在于保证各个PE运算速度匹配，PE阵列闲置率低。

输入特征图片和权重数据的分发复用方式：整个PE阵列由一块共享的片上存储器同步分发相同的激励数据作为运算所需的矩阵，由数据分发模块根据分块运算的控制信息分发每个PE所需的权重数据作为运算所需的向量，输入特征图片的复用主要在于不同PE的同时使用，权重数据的复用主要在于不同组间权重的复用和同一个PE更换矩阵后权重数据无需分发的再次利用。

PE阵列运算并行调度机制：PE阵列在运算时需要根据卷积层输出特征图片的尺寸信息确定不同分组是完成同一输出特征图片不同行(列)的输出，还是完成不同输出特征图片的运算。这样保证了PE阵列可以在两个层面上进行并行调度，一是单一特征图片的层内并行，二是不同特征图片的同步并行。

本实施例的一种负载均衡的稀疏卷积神经网络加速方案包含软件和硬件两个部分，如图2所示，图中为软件部分剪枝策略示意图。剪枝策略描述如下：对于初始的密集神经网络连接，会根据网络的连接数和神经元数对其进行分组，各个分组剪枝方式和位置相同，也就是说每个卷积核组的神经元和连接方式一样，只是连接的权重数据不同。以输入特征图为W*W*C为例，(W为特征图宽高尺寸，C为输入通道数)，其卷积核尺寸为R*R*C*N，(R为卷积核的宽和高尺寸，C为卷积核通道数，N为卷积核个数，也即输出通道数)，剪枝的时候会先把R*R*C的卷积核归为一个卷积核组，共计N个，对每个卷积核而言，它们中零元素的位置相同；如果剪枝后准确率达不到模型要求，会调整卷积核组大小，取R*R*C*N1(N1为N的约数)进行剪枝。

如图3所示为硬件部分的稀疏卷积神经网络加速器结构示意图。整体结构主要包含了：主控制器，从上位机CPU接收指令开始卷积运算，用于生成控制卷积运算的控制信号流和数据流；数据分发模块，根据卷积运算的分块方案对PE进行权重数据分发；卷积运算的PE(Process Element运算单元)阵列，根据主控制器的配置信息进行分组完成稀疏卷积的乘加运算操作，输出卷积结果或部分和结果；输出结果缓存模块，对PE的部分和结果进行累加缓存，整理成统一格式后送往后续单元进行操作；线性激活函数单元，完成卷积运算结果的加偏置和激活函数操作；池化单元，完成结果的最大值池化操作；在线编码单元，对中间结果进行在线CSR(压缩稀疏行存储)编码，以保证输出的结果满足后续卷积层运算的数据格式要求；片外动态存储器DDR4，用于存储原始图像数据，层间中间结果和卷积层最终输出结果。

数据分发模块包括取数地址计算单元、片上可配置的片上存储器存储单元和数据格式缓存转换的FIFO组。数据分发模块会根据接收到的主控制器发来的配置信息，由取数地址计算单元完成对片外动态存储器DDR4的取数操作，取出来的数据经由AXI4接口缓存到片上权重的片上存储器存储单元，并进一步进行格式转换，分发缓存到对应的FIFO中，等待运算发送数据。

卷积运算的PE阵列包括多个矩阵向量乘计算单元，可以根据静态配置信息的要求，完成特征图片的层内或层间并行卷积操作，输出卷积运算的部分和结果。同时多个PE单元的存储是公用的片上存储器，鉴于剪枝策略和硬件架构的设计，多个PE可以在使用很少存储资源的条件下，达到计算稀疏卷积过程中跳零加速计算以及不同PE运算速度匹配。

矩阵向量乘计算单元包括流水控制器模块、权重非零检测模块、指针控制模块、激励解压模块、乘加运算单元模块和公用片上存储器存储。权重非零检测模块会把数据分发模块发送的权重数据进行非零检测，只传输非零值和其对应的位置信息到PE单元；指针控制模块和激励解压模块会根据对应的非零权重值，从公用的片上存储器中取出非零权重值对应的运算所需的激励值，同时发送到各个PE单元以备运算；乘加运算单元主要负责矩阵向量乘中的乘法和加法计算。

如图4所示为卷积运算映射方式示意图，以输入特征图为W*W*C为例，(W为特征图宽高尺寸，C为输入通道数)，其卷积核尺寸为R*R*C*N，(R为卷积核的宽和高尺寸，C为卷积核通道数，N为卷积核个数，也即输出通道数)，F为输出特征图尺寸；首先由N大小确定每个PE组中PE单元的个数Num_PE，如果PE总个数大于N，即可让Num_PE等于N，每个组一批运算可以直接得出输出特征图所有通道的结果，否则就让Num_PE为N的约数M，整数批运算输出特征图部分通道的结果，保证某些PE不会被闲置；PE的组数Group_PE由PE总个数和Num_PE确定，如果一组已经可以完成所有输出通道的运算，则不同的组负责输出特征图的不同行，即如图中PE组2运算分工所示。

对于一层完整的卷积运算，一个PE组由Num_PE个PE单元(即矩阵向量乘单元)构成，每个矩阵向量乘单元负责输出特征图的一个通道的若干行，其中第一次运算会输出若干行的第一列，具体行数由矩阵向量乘的矩阵规模决定，矩阵向量乘中矩阵对应的是存储在共享的本地存储片上存储器中的激励数据，向量对应的是由数据分发模块发送的权重数据；对于其他PE组而言，其运算内容可以是输出特征图的后续行，即如图3所示的那样，也可以是其他输入特征图的卷积运算，即可以满足层内行列并行和不同特征图并行两种不同的并行运算模式。

如图5所示为PE组内卷积运算方式示意图，以不同的数值表示输入特征图和不同卷积核上不同位置的值，示例所取的矩阵向量乘规模是2*12的矩阵和12*1的向量，所以PE每次运算输出结果为2*1的向量，PE1在第一次运算时向量对应的是卷积核1的三个通道12*1，矩阵对应的是激励图像中(1,2,4,5)和(2,3,5,6)对应位置的三个通道，在进行乘加运算后输出结果即为输出特征图第一个通道第一列的前两行，后续矩阵会先更新，即取(4,5,7,8)和(5,6,8,9)位置的激励值，输出结果为输出特征图第一个通道第二列的前两行；在输出对应行的所有列数据后，向量对应的权重数据会进行更新，即后续会输出第三个通道的输出结果。而PE2对应的就是在计算输出特征图的第二个通道，权重数据更新后，变为计算输出的第四个通道。

如图6所示为PE阵列负载均衡以及存储共享的实现示意图，PE阵列的共享片上存储器存储着按照CSR(压缩稀疏行存储)格式存储的输入激励的非零值以及它们的索引和指针，根据数据分发模块发送的权重向量非零值的位置取出对应的激励进行乘加运算，由于PE组内所有的权重向量根据软件剪枝策略其非零元素的位置是相同的，所以每个PE所需要的对应激励值也是相同的，只需要很少的存储器保存一份激励值，并解码同时发送给PE即可满足PE阵列的矩阵要求。而对于所有PE而言，其进行矩阵向量乘运算中矩阵和向量的非零值位置完全相同，故PE阵列计算速度相匹配，达到运算阵列低存储负载均衡的设计目的。与此同时，不同的PE组还可以共享分发的权重数据，实现激励和权重的高复用率。

综上说述，利用本发明实施例提出的对于稀疏卷积神经网络的加速方法，可以有效地节省存储硬件资源，提高输入特征图和权重的复用率，并且能够实现PE阵列的负载均衡，对PE阵列进行静态配置可以满足不同并行运算要求，保证PE阵列的高利用率，以提高整体系统的数据吞吐率，达到很高的能效比，适用于低功耗的嵌入式系统。

Claims

1.一种负载均衡的稀疏卷积神经网络加速器，其特征在于，包括：

主控制器，用于控制卷积运算的控制信号流和数据流，对数据进行处理和保存；

数据分发模块，根据卷积运算的分块方案对计算阵列进行权重数据分发；

卷积运算的计算阵列，用于完成稀疏卷积的乘加运算操作，输出部分和的结果；

输出结果缓存模块，用于对计算阵列的部分和的结果进行累加缓存，并整理成统一格式，输出待激活处理和池化的特征图结果；

线性激活函数单元，用于对累加完成的部分和结果的加偏置和激活函数操作；

池化单元，用于对经激活函数处理后的结果的池化操作；

在线编码单元，用于对仍需进行后续卷积层运算的激励值进行在线编码；

片外动态存储器，用于存储原始图像数据、计算阵列运算的中间结果和最终输出的特征图。

2.根据权利要求1所述的一种负载均衡的稀疏卷积神经网络加速器，其特征在于，所述卷积运算的计算阵列包括矩阵向量乘计算单元，所述矩阵向量乘计算单元包括流水控制器模块、权重非零检测模块、指针控制模块、激励解压模块、乘加运算单元模块和公用片上存储器；所述权重非零检测模块用于对数据分发模块发送的权重数据进行非零检测，并只传输非零值和其对应的位置信息到计算单元；所述指针控制模块和激励解压模块用于根据对应的非零权重值从公用片上存储器中取出非零权重值对应的运算所需的激励值，同时发送到各个计算单元；所述乘加运算单元用于运算矩阵向量乘中的乘法和加法。

3.一种负载均衡的稀疏卷积神经网络加速器的加速方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法，其特征在于，所述步骤2)中，稀疏卷积运算映射方案包括卷积运算映射方式、计算阵列分组方案、输入特征图片和权重数据的分发复用方式、以及计算阵列运算并行调度机制。

5.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法，其特征在于，所述卷积运算映射方式具体为：将输入特征图片按照行维度或列维度展成一个矩阵，将权重数据按照输出通道维度展开成一个向量，从而把卷积运算转化成矩阵向量乘运算。

6.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法，其特征在于，所述计算阵列分组方案具体为：按照每层卷积运算的尺寸参数信息由主控制器静态配置完成分组运算，当计算单元个数大于三维卷积核总个数时，一组阵列用于计算所有输出特征图通道，在此基础上，剩余计算单元按相同个数分组，负责计算输出特征图的不同行；当计算单元个数小于三维卷积核总个数时，一组阵列用于计算输出特征图通道数的最大约数。

7.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法，其特征在于，所述输入特征图片和权重数据的分发复用方式具体为：整个计算阵列由一块共享的片上存储器同步分发相同的激励数据作为运算所需的矩阵，由数据分发模块根据分块运算的控制信息分发每个计算单元所需的权重数据作为运算所需的向量。

8.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法，其特征在于，所述计算阵列运算并行调度机制具体为：计算阵列在运算时需要根据卷积层输出特征图片的尺寸信息确定不同分组是完成同一输出特征图片不同行或不同列的输出，还是完成不同输出特征图片的运算。