CN107729999A

CN107729999A - 考虑矩阵相关性的深度神经网络压缩方法

Info

Publication number: CN107729999A
Application number: CN201611205336.7A
Authority: CN
Inventors: 李鑫; 陆智麟; 单羿
Original assignee: Beijing Insight Technology Co Ltd
Current assignee: Xilinx Technology Beijing Ltd
Priority date: 2016-08-12
Filing date: 2016-12-23
Publication date: 2018-02-23
Anticipated expiration: 2036-12-23
Also published as: US20180046894A1; US10621486B2; CN107239829A; CN107704916B; CN107239829B; CN107729999B; CN107704916A

Abstract

本申请公开了一种对神经网络进行压缩的方法，该方法包括：敏感度分析步骤，用于基于所述多个矩阵之间的相关性，分析各个矩阵的敏感度并确定各个矩阵的初始压缩比；压缩步骤，用于基于所述初始压缩比对所述各个矩阵进行压缩，以获得压缩后的神经网络；重训步骤，用于重训所述压缩后的神经网络。

Description

考虑矩阵相关性的深度神经网络压缩方法

本申请要求于2016年8月22日提交的美国专利申请No.15/242,622、和于2016年8月22日提交的美国专利申请No.15/242,624的优先权。

发明领域

本发明涉及一种考虑矩阵相关性的深度神经网络压缩方法及装置。

背景技术

人工神经网络的压缩

人工神经网络(Artificial Neural Networks,ANNs)，也简称神经网络(NNs)，是一种模仿动物神经网络的行为特征，进行分布式并行信息处理的数学计算模型。近年来，神经网络发展很快，被广泛应用于诸多领域，如图像识别、语音识别、自然语言处理、天气预报、基因表达、内容推送等等。

神经网络中，有大量彼此连接的节点(也称“神经元”)。神经网络具备两个特性：1)每个神经元，通过某种特定的输出函数(也叫激活函数Activation Function)，计算处理来自其它相邻神经元的加权输入值；2)神经元之间的信息传递强度用所谓的权值来定义，算法会不断自我学习，调整这个权值。

早期的神经网络只有输入和输出层两层，无法处理复杂的逻辑，因此限制了其实用性。

如图1所示，深度神经网络(Deep Neural Networks,DNNs)通过在输入层和输出层之间添加隐藏的中间层，革命性地改变了这一点。

循环神经网络(Recurrent Neural Networks,RNNs)是一种常用的深度神经网络模型。不同于传统前向神经网络(Feed-forward Neural Networks)，循环神经网络引入了定向循环，能够处理输入之间前后关联的问题。在语音识别中，信号的前后关联很强，例如识别句子中的单词和该单词前面的单词序列关系十分紧密。因此，循环神经网络在语音识别领域有着非常广泛的应用。

然而，通过近几年的迅速发展，神经网络的规模不断增长，已公开的比较先进的神经网络可达数百层、数亿个连接，属于计算和访存密集型应用。在神经网络逐渐变大的情况下，模型压缩就变得极为重要。

深度神经网络中，神经元的连接关系在数学上可以表示为一系列矩阵。经过训练后的网络虽然预测准确，但其矩阵都是稠密的，即“矩阵中充满了非零元素”，从而导致大量的存储和计算资源被消耗。这不但降低了速度，而且增加了成本。这样一来，在移动端推广应用就面临着巨大的困难，极大的制约了神经网络的发展。

图2示出了一种利用剪切、重训的压缩神经网络的示意图。

近年来，广泛的研究表明，在通过训练得到的神经网络模型矩阵中，仅有部分权值较大的元素代表着重要连接，而其他权值较小的元素可以被移除(置为零)，

图3示出了对应的神经元被剪枝(pruning)。剪枝后的神经网络精度会下降，但是可以通过重训(fine tune)，对仍然保留在模型矩阵中的权值大小进行调整，从而减小精度损失。

模型压缩可以将神经网络中的稠密矩阵稀疏化，能够有效的降低存储量、减少计算量，在保持精度的同时实现加速。模型压缩对于专用的稀疏神经网络加速器而言，显得极为重要。

语音识别Speech Recognition

语音识别(Speech Recognition)，是将语言的模拟信号顺序映射到一个具体的单词集合上。近年来，人工神经网络的方法在语音识别领域取得的效果已经远远超出了所有传统方法，正在成为全行业的主流。其中，深度神经网络有着极为广泛的应用。

图4示出了一种使用神经网络的语音识别引擎的例子。在图4的模型中，涉及利用深度学习模型来计算语音输出概率，即输入语音串与各种匹配候选之间相似度预测。通过本发明的方案，可以利用例如FPGA来加速实现图4的DNN部分。

图5进一步示出了应用于图4的语音识别引擎的深度学习模型。

图5中的5a显示了包含CNN(卷积神经网络)、LSTM(长短时记忆模型)、DNN(深度神经网络)、Softmax等模块的深度学习模型。

图5中的5b是本发明所旨在应用的学习模型，使用了多层LSTM。

在图中的5b的网络模型中，输入是一段语音片段。例如，约1秒的语音，被依次切割为100帧，每帧的特性可以由浮动型向量表示。

LSTM(长短时记忆)

在语音识别领域，为了解决对长期信息的记忆问题，Hochreiter&Schmidhuber于1997年提出了长短时记忆(Long Short-Term Memory,LSTM)模型。

图6示出了在语音识别领域所的使用一种LSTM网络模型。LSTM神经网络是RNN的一种，将普通RNN当中简单的重复神经网络模块改变为复杂的连接交互关系。LSTM神经网络在语音识别中也取得了非常好的应用效果。

关于LSTM的更多信息，可以参见如下文章：Sak H,Senior A W,Beaufays F.Longshort-term memory recurrent neural network architectures for large scaleacoustic modeling[C]//INTERSPEECH.2014:338-342，Sak H,Senior A,Beaufays F.Longshort-term memory based recurrent neural network architectures for largevocabulary speech recognition[J].arXiv preprint arXiv:1402.1128,2014.

如上所述，LSTM是一种类型的RNN。RNN与DNN的区别在于，RNN是时间依赖型的。具体而言，时刻T的输入依赖于时刻T-1的输出，即，当前帧的计算需要前一帧的计算结果。

图6所示的LSTM的结构中，各个参数的意义如下：

-i、f、o分别代表三个gate，g为cell的特征输入；

-粗线代表上一帧的输出；

-每个gate有一个权值矩阵，T时刻输入与T-1的输出经过gate时的计算量较大；

-虚线代表peephole，peephole以及三个叉乘符号对应的操作均为element-wiseoperation，计算量较小。

如图7所示，为了减小LSTM层的计算量，需要再额外引入一个投影层进行降维。

图7对应的计算公式为：

i_t＝σ(W_ixx_t+W_iry_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fry_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cry_t-1+b_c)

o_t＝σ(W_oxx_t+W_ory_t-1+W_occ_t+b_o)

m_t＝o_t⊙h(c_t)

y_t＝W_ymm_t

Wic，Wcf，Woc即是peephole，对应示意图中的三条虚线。计算中单元(cell)作为操作数的运算均为向量间的element-wise operation。也可以将其理解成向量和对角矩阵的乘法，此时权值矩阵是对角矩阵。

近年来，广泛的研究表明，通过训练得到的神经网络模型矩阵中，仅有部分权值较大的元素代表着主要连接，发挥着关键作用，而其他权值较小的元素发挥的作用较小，可以被移除(置为零)，与此同时对应的神经元也被剪枝(pruning)。剪枝后的网络通过重训(fine-tune)，调整仍然保留在模型矩阵中权值的大小，可以保证网络的精度不下降。模型压缩可以将稠密的神经网络变成稀疏的神经网络，能够有效的减少计算量、降低访存量，从而实现加速。

因此，本发明的目的在于提供一种深度神经网络的压缩方法，其旨在通过考虑矩阵之间相关性，更科学地指导剪枝策略，在不影响网络的预测准确度的前提下，实现尽可能高的网络压缩率和更快的压缩速度。

发明内容

为此，在一方面，本发明提出一种对神经网络进行压缩的方法，所述神经网络的各个神经元之间的权重由多个矩阵表示。该方法包括：敏感度分析步骤，用于基于所述多个矩阵之间的相关性，分析各个矩阵的敏感度并确定各个矩阵的初始压缩比；压缩步骤，用于基于所述初始压缩比对所述各个矩阵进行压缩，以获得压缩后的神经网络；重训步骤，用于重训所述压缩后的神经网络。

在另一方面，本发明提出一种对神经网络进行压缩的装置，所述神经网络的各个神经元之间的权重由多个矩阵表示。该装置包括：敏感度分析单元，用于基于所述多个矩阵之间的相关性，分析各个矩阵的敏感度并确定各个矩阵的初始压缩比；压缩单元，用于基于所述初始压缩比对所述各个矩阵进行压缩，以获得压缩后的神经网络；重训单元，用于重训所述压缩后的神经网络。

附图说明

图1示出了一种深度神经网络(Deep Neural Networks,DNNs)的模型。

图2示出了一种利用剪切、重训的压缩神经网络的示意图。

图3示出了剪枝后的神经网络，其中一部分神经元被剪枝。

图4示出了一种使用神经网络的语音识别引擎的例子。

图5示出了应用于语音识别引擎的深度学习模型。

图6示出了应用于语音识别领域的一种LSTM网络模型。

图7示出了一种改进的LSTM网络模型。

图8示出了一种LSTM神经网络的压缩方法。

图9示出了敏感度测试的具体步骤。

图10显示了对LSTM网络应用敏感度测试的得到的相应曲线。

图11示出了确定最终稠密度序列并进行剪枝的具体步骤。

图12示出了通过“压缩试验-稠密度序列调整”迭代调整初始稠密度序列的具体子步骤。

图13示出了对神经网络进行重训的具体步骤。

图14示出了根据本发明的一个实施例的敏感度分析的具体步骤。

具体实施方式

发明人过去的研究成果

如发明人之前的文章“Learning both weights and connections forefficient neural networks”中，已经提出了一种通过修剪来压缩神经网络(例如，CNN)的方法。所述方法包括如下步骤。

初始化步骤，把卷积层、FC层的权重初始化为随机值，其中生成了具有完全连接的ANN，所述连接具有权重参数，

训练步骤，训练所述ANN，根据ANN的精度，来调整ANN的权重，直到所述精度达到预定标准。所述训练步骤基于随机梯度下降算法来调整所述ANN的权重，即随机调整权重值，基于ANN的精度变化来进行选择。关于随机梯度算法的介绍，可以参见上述“Learning bothweights and connections for efficient neural networks”。此外，所述精度可以量化为，针对训练数据集，ANN的预测结果和正确结果之间的差异。

修剪步骤，基于预定的条件，发现ANN中的不重要的连接，修剪所述不重要的连接。具体而言，被修剪的连接的权重参数不再被保存。例如，所述预定条件包括以下任意之一：连接的权重参数为0；或连接的权重参数小于预定值。

微调步骤，将被修剪的连接重新设置为权重参数值为零的连接，即，恢复所述被修剪的连接，并分配权重值为0。

迭代步骤，判断ANN的精度达到预定标准。如果没有，重复上述训练、修剪、微调步骤。

本发明提出的改进

本发明提供了一种多次迭代的深度神经网络的压缩方法。

图8示出了根据本发明的一个实施例的一种适用于LSTM神经网络的压缩方法，其中通过多次迭代操作来实现神经网络的压缩。

根据图8的实施例，每次迭代操作具体包括敏感度分析、剪枝、重训三个步骤。下面对每个步骤进行具体说明。

步骤8100，敏感度测试(sensitivity analysis)。

在该步骤中，例如，针对LSTM网络中所有矩阵进行敏感度分析，以确定不同矩阵的初始稠密度(或者初始压缩比)。

图9示出了敏感度测试的具体步骤。

如图9所示，在步骤8110，例如，对LSTM网络中的各个矩阵尝试按照不同稠密度进行压缩(所选择的稠密度例如是0.1,0.2,…,0.9，对矩阵的具体压缩方法参考步骤8200)。然后，测量以不同稠密度压缩的网络的词错误率(Word Error Rate,WER)。

在识别一段单词序列时，可能存在一些单词被错误地插入、删除或替换的情况。例如，对于包含N个单词的一段初始识别文字而言，如果有I个单词被插入、D个单词被删除以及S个文字被替换，那么WER为：

WER＝(I+D+S)/N，

其中，WER通常由百分比表示。通常而言，压缩后网络的WER会变大，这意味着压缩后网络的精度会变差。

在步骤8120，对于一个矩阵，以稠密度为横坐标，WER为纵坐标，绘制神经网络中该矩阵在不同稠密度下的WER曲线。针对每个矩阵都绘制所述稠密度-WER曲线。

在步骤8130，对于一个矩阵，从曲线中寻找WER剧烈变化的点所对应的稠密度为该矩阵的初始稠密度。针对每个矩阵都获得所述初始稠密度。

在本实施例中，选取稠密度-WER曲线的拐点所对应的稠密度作为该矩阵的初始稠密度。具体而言，在一次迭代中拐点以如下方法确定：

已知压缩前(即稠密度为1)的初始网络WER为：WER(initial)；

针对不同稠密度得到相应的压缩后的网络WER为：WER(0.1)、WER(0.2)、···、WER(0.9)；

计算ΔWER，即：WER(0.1)与WER(initial)进行比较、WER(0.2)与WER(initial)进行比较、···、WER(0.9)与WER(initial)进行比较；

基于计算得到的ΔWER，拐点指的是ΔWER小于一定阈值的所有点当中具有最小稠密度的那个点。应当理解，可以基于其他策略选取曲线中WER剧烈变化的点，这些策略也包含在本发明的范围中。

在一个示例中，对于一个3层LSTM网络，其中每层有9个稠密矩阵需要压缩：Wix、Wfx、Wgx、Wox、Wir、Wfr、Wgr、Wor、Wrm，这样一共有27个稠密矩阵需要压缩。

首先，对每个矩阵，按照稠密度从0.1到0.9，以步长0.1做9次试验，测试整个网络在9次试验中的WER，并绘制相应稠密度-WER曲线。这样，针对27个矩阵，一共获得27条曲线。

然后，针对每个矩阵，从该矩阵对应的稠密度-WER曲线中(例如，针对第一层LSTM中的Wix矩阵绘制的曲线)，找到WER剧烈变化的点。

这里，认为相比于本轮迭代的初始网络的WER，ΔWER变化小于1％的所有点当中具有最小稠密度的那个点为拐点。

例如，假设初始网络的WER为24％，则选取曲线中WER小于25％的所有点当中具有最小稠密度的那个点作为拐点。取拐点对应的稠密度作为该Wix的初始稠密度。

这样，可以得到一个长度为27的初始稠密度序列，分别对应每个矩阵的初始稠密度。因此可以以该初始稠密度序列指导压缩。

一个初始稠密度序列的例子如下(矩阵排列顺序为Wcx、Wix、Wfx、Wox、Wcr、Wir、Wfr、Wor、Wrm)：

densityList＝[0.2,0.1,0.1,0.1,0.3,0.3,0.1,0.1,0.3,

0.5,0.1,0.1,0.1,0.2,0.1,0.1,0.1,0.3,

0.4,0.3,0.1,0.2,0.3,0.3,0.1,0.2,0.5]

图10示出了一个单层LSTM网络中9个矩阵的相应稠密度-WER曲线。可以看到，不同矩阵对于压缩的敏感度大相径庭，其中，w_g_x，w_r_m，w_g_r相对于其他矩阵而言较为敏感，即在稠密度-WER曲线中存在max(ΔWER)>1的点。

步骤8200，确定最终稠密度序列(density determination)并进行剪枝(Pruning)。

图11示出了确定最终稠密度序列并进行剪枝的具体步骤。

如图11所示，图8的步骤8200可以包括若干子步骤。

首先，在步骤8210，基于步骤8100中确定的初始稠密度序列，指导每一个对应的矩阵进行初次压缩试验。

然后，在步骤8215，基于初次压缩试验的结果，测试压缩后网络的WER。如果压缩前后网络的ΔWER超过某一阈值ε(例如，4％)，则进行到下一步骤8220。

在步骤8220，通过“压缩试验-稠密度序列调整”迭代来调整初始稠密度序列。在步骤8225，获得最终稠密度序列。

如果ΔWER未超过该阈值ε，则直接进行到步骤8225，初始稠密度序列即为最终稠密度序列。

最后，在步骤8230，基于最终稠密度序列指导LSTM网络进行剪枝。

下面，对图11的各子步骤进行详细说明。

步骤8210，进行初次压缩试验

根据研究中获得的经验，矩阵中绝对值比较大的权值对应着比较强的神经元连接关系。因此，在本实施例中，基于矩阵中元素的绝对值进行矩阵压缩。应当理解，可以基于其他策略对矩阵进行压缩，这些策略也包含在本发明的范围中。

根据本发明的一个实施例，对每个矩阵中的所有元素按照绝对值从小到大进行排序。然后，基于步骤8100中确定的该矩阵的初始稠密度对该矩阵进行压缩，只保留对应的稠密度所对应比例的绝对值较大的元素，并且将其余元素置零。例如，如果该矩阵的初始稠密度为0.4，那么，保留该矩阵中绝对值较大的前40％的元素，将剩余60％元素置零。

步骤8215，判断压缩前后网络的ΔWER超过某一阈值ε(例如，4％)。

步骤8220，如果压缩前后网络的ΔWER超过所述阈值ε(例如，4％)，则通过“压缩试验-稠密度序列调整”迭代。

步骤8225，通过在步骤8220调整初始稠密度序列，获得最终稠密度序列。

图12示出了通过“压缩试验-稠密度序列调整”迭代调整初始稠密度序列的具体步骤。

如图12所示，在步骤8221，对相对敏感的矩阵的稠密度进行调整。即，上浮相对敏感的矩阵的稠密度，例如，上浮0.05。基于该稠密度，对相应矩阵进行压缩试验。

在本实施例中，压缩试验的策略与初次压缩试验相同，但是应当理解，可以选择其他策略对矩阵进行压缩，这些策略也包含在本发明的范围中。

然后，计算压缩后的网络的WER，若WER仍不满足目标，则继续上浮相对敏感的矩阵的稠密度，例如上浮0.1。基于该稠密度，对相应矩阵进行压缩试验。以此类推，直到压缩前后网络的ΔWER在所述阈值ε(例如，4％)以下。

可选地或依次地，在步骤8222，可以继续对相对不敏感的矩阵的稠密度进行微调，从而使压缩前后网络的ΔWER在某一阈值ε’(例如，3.5％)以下。这样，可以进一步提高压缩后的网络的准确度。

如图12所示，对相对不敏感的矩阵的稠密度的微调过程类似于前述对相对敏感的矩阵的稠密度的微调过程。

在一个示例中，神经网络的原始WER为24.2％，步骤8100中获得的初始稠密度序列为：

densityList＝[0.2,0.1,0.1,0.1,0.3,0.3,0.1,0.1,0.3,

0.5,0.1,0.1,0.1,0.2,0.1,0.1,0.1,0.3,

0.4,0.3,0.1,0.2,0.3,0.3,0.1,0.2,0.5]

按照初始稠密度序列对网络进行剪枝，压缩后的网络的WER恶化为32％，此时需要调整初始稠密度序列。具体步骤如下：

根据步骤8100的结果得知，第一层LSTM中的矩阵Wcx,Wcr,Wir,Wrm、第二层中矩阵的Wcx,Wcr,Wrm、和第三层中矩阵的Wcx,Wix,Wox,Wcr,Wir,Wor,Wrm相对敏感，其余矩阵相对不敏感。

首先，对上述相对敏感的矩阵，按0.05的步长增大其对应的初始稠密度。

然后，基于上浮的稠密度对神经网络阵进行压缩试验。通过计算得到压缩后网络的WER为27.7％。此时，满足压缩前后网络ΔWER<4％的要求，停止调整相对敏感的矩阵的稠密度。

根据本发明的另一实施例，可选地，可以对相对不敏感的矩阵的初始稠密度进行微调，使压缩前后网络ΔWER<3.5％。在本示例中，省略该步骤。

因此，通过“压缩试验-稠密度序列调整”迭代调整得到的最终稠密度序列为：

densityList＝[0.25,0.1,0.1,0.1,0.35,0.35,0.1,0.1,0.35,

0.55,0.1,0.1,0.1,0.25,0.1,0.1,0.1,0.35,

0.45,0.35,0.1,0.25,0.35,0.35,0.1,0.25,0.55]

此时，压缩后的神经网络的整体稠密度约为0.24。

步骤8230，基于最终稠密度进行剪枝(Pruning)。

例如，在本实施例中，同样基于矩阵中元素的绝对值对矩阵进行剪枝。

具体地，对每个矩阵中的所有元素按照绝对值从小到大进行排序；然后，基于最终稠密度序列对各矩阵进行压缩，对于每个矩阵，只保留相应稠密度对应的绝对值较大的元素，并且将其余元素置零。

在步骤8300，重训(fine tuning)

对神经网络的训练是对损失函数进行优化的过程。损失函数指的是在给定输入下，神经网络模型预测的结果与真实结果之间的差别。希望损失函数的值尽可能小。

对神经网络的训练的本质在于寻找最优解。重训即指在已有的一个可能的离最优解很近的次优解的情况下，搜索最优解，也就是在一定的基础上继续训练。

例如，对于LSTM深度神经网络，在步骤8200剪枝操作以后，在保留下来的权值的基础上继续训练，寻找最优解，就是一个重训的过程。

图13示出了对神经网络进行重训的具体步骤。

如图13所示，输入是在步骤8200剪枝操作之后的神经网络。

在步骤8310中，首先，用训练集训练步骤8200得到的稀疏神经网络并进行权值矩阵更新。

然后，在步骤8320，判断该矩阵是否收敛到局部最优解。

如果未收敛到局部最优解，则返回步骤8310，重复训练集训练和权值矩阵更新的步骤。

如果收敛到最优解，则进行到步骤8330，获得最终神经网络。

在本发明一个实施例中，重训时采用梯度下降法来更新权值矩阵。

具体地，梯度下降法基于这样的观察：

如果实值函数F(x)在点a处可微且有定义，那么函数F(x)在a点沿着梯度相反的方向下降最快。因而，如果：

对于γ>0为一个够小数值时成立，那么F(a)≥F(b)，其中a是向量。

考虑到这一点，我们可以从函数F的局部极小值的初始估计x₀出发，并考虑如下序列x₀,x₁,x₂,…使得：

因此可得到：

，F(x₀)≥F(x₁)≥F(x₂)≥…

如果顺利的话，序列(x_n)收敛到期望的极值。注意每次迭代步长γ可以改变。

这里，将F(x)理解为损失函数，就可以理解梯度下降法使得模型预测损失减小的原理。

在一个示例中，参考论文DSD：Regularizing Deep Neural Networks withDense-Sparse-Dense Training Flow in NIPS 2016，对LSTM深度神经网络的重训方法如下：

这里，W是权值矩阵，η代表学习率，也就是随机梯度下降法的步长，f是损失函数，是对损失函数求梯度，x是训练数据，t+1代表更新权值。

上式的含义是：用权值矩阵减去学习率与损失函数梯度的乘积，来更新权值矩阵。

在另一个示例中，保持网络中各个矩阵压缩后非零元素的分布的方法是使用掩码(mask)矩阵，该掩码矩阵仅包括0和1元素，用于记录压缩后矩阵非零元素的分布信息。

通常带掩码的重训方法如下：

Mask＝(W⁽⁰⁾≠0)

也就是，对计算出来的梯度乘以掩码矩阵，保证梯度矩阵变成与掩码矩阵相同的形状，用来更新权值矩阵。

下面，详细说明重训过程和收敛判断准则的一个具体示例。

在该示例中，重训的输入为：待训练的网络、学习率、最大训练轮数、keep_lr_iters(保持原学习率的轮数)、start_halving_impr(用于确定改变学习率的时机，例如0.01)、end_halving_impr(用于终止训练，例如0.001)、halving_factor(例如0.5)、数据集(训练集、交叉验证集、测试集)等。

此外，重训的输入还包括学习动量、num-stream、batch-size等参数，这里暂时省略这些参数。重训的输出为：训练后的网络。

重训的具体过程如下：

1、对待训练的初始模型采用交叉验证数据集测试平均损失(cross loss，后面简称“loss”)，作为衡量网络训练好坏的初始标准；

2、迭代训练：

·迭代训练分为多个“epoch”进行(这里，训练集中所有数据运行一遍称为一个epoch，后面简称“一轮”)，迭代的总轮数不会超过最大训练轮数max_iters；

·在每一轮中，采用训练数据集，利用梯度下降法，更新网络中矩阵的权值；

·每轮训练结束后，保存训练出的网络，并对其采用交叉验证数据集测试平均损失loss，如果此时的loss比上一轮有效训练的loss(记为loss_prev)大，则拒绝本次训练(下一轮的训练还是基于上一轮训练结果)，否则接受本次训练(下一轮训练基于本轮训练结果)，并存储本轮的loss；

·学习率的动态改变及训练终止的条件：涉及到输入参数start_halving_impr、end_halving_impr、halving_factor等，每轮训练结束后，根据(loss_prev-loss)/loss_prev计算improvement并记为real_impr，其表示本轮被接受的训练结果的loss相比于上一轮被接受的训练结果的loss相对提升的大小，然后根据real_impr进行处理：

1)如果迭代轮数小于keep_lr_iters，则不改变学习率；

2)如果real_impr小于start_halving_impr(例如0.01)，即本轮训练相比于上一轮提升已经到某个较小的限度内，说明接近局部最优解了，则使得学习率减小(乘以halving_factor，通常是折半)，从而减小梯度下降法的步长，以更小的步子接近局部最优解；

3)如果real_impr小于end_halving_impr(例如0.001)，即本轮训练相比于上一轮相对提升比较小了，认为训练已经达到终点并终止训练(但是如果训练轮数小于min_iters，则会继续训练至min_iters轮)。

因此，训练结束的情况可能包括以下四种：

1、训满min_iters轮，中间未出现real_impr小于end_halving_impr，则取第min_iters轮的结果；

2、训满min_iters轮，中间出现了real_impr小于end_halving_impr，则取前min_iters轮中loss最小的那一轮训练结果；

3、正常训练超过min_iters轮，但是小于max_iters轮，出现real_impr小于end_halving_impr，则取最后一轮，也就是loss最小的那一轮的训练结果；

4、正常训练到max_iters轮，未出现real_impr小于end_halving_impr，取第max_iters轮的结果。

应注意，上述示例描述了一种重训过程以及用于确定矩阵是否收敛到局部最优解的判断准则。然而，在实际操作中，为了提高压缩效率，不必须等到收敛结果，可以取中间结果，然后进行下一轮压缩。

此外，判断准则还包括判断经过训练后的网络的WER是否满足一定标准等，这些判断准则也包含在本发明的范围中。

通过重训，网络的WER下降，从而减少了压缩带来的精度损失。例如，通过重训，一个稠密度为0.24的LSTM网络的WER可以从27.7％下降到25.8％。

迭代步骤(iteration)

返回参照图8，如上文所述，本发明通过多次迭代操作、即重复上述步骤8100、8200、8300而将神经网络压缩至期望稠密度。

例如，在一个示例中，希望最终网络稠密度为0.14。

在第一轮迭代中，通过步骤8300得到稠密度为0.24、WER为25.8％的网络。

重复上述步骤8100、8200、8300对该网络继续进行多轮压缩。

例如，在第二轮压缩后，网络的稠密度为0.18，WER为24.7％。

继续第三轮压缩后，网络稠密度为0.14，WER为24.6％，达到目标。

本发明提出的进一步改进

在上文实施例中，敏感度分析方法是对多层LSTM神经网络中的所有待压缩矩阵逐一扫描(即，对各矩阵以不同的稠密度进行压缩从而获得稠密度-WER曲线)，以确定整个网络的初始稠密度序列。然而，这种敏感度分析方法存在以下两个缺点：

1、首先，由于在敏感度分析中是对单个矩阵进行扫描，没有考虑矩阵之间的相关性。然而，在矩阵压缩时却是对整个网络进行压缩，即对所有矩阵同时进行压缩。因此，压缩后网络的精度可能与单个矩阵扫描时得到的理论值存在较大偏差，这对如何调整初始稠密度序列以获得更合适稠密度带来了困难；

2、其次，对于N层LSTM神经网络而言，每层有9个稠密矩阵需要压缩，因此需要压缩的矩阵总共有N*9个。如果上上文实施例那样，在敏感度分析中对每个矩阵以0.1,0.2,…,0.9的稠密度逐一扫描，则至少需要进行N*9*9次敏感度测试以获得N*9个稠密度-WER曲线，进而确定各矩阵的初始稠密度。对于较大规模的神经网络而言，该过程的时间成本较高。

针对上述问题，本发明提出一种优化的深度神经网络(例如，LSTM)压缩方法。具体地，通过在敏感度分析阶段加入对矩阵之间相关性的考虑，更高效、准确地确定网络压缩的初始稠密度序列，以指导更科学合理的剪枝策略，同时在不影响网络的预测准确度的前提下，实现尽可能高的网络压缩率和更快的压缩速度。

如图14所示，根据本发明的敏感度分析包括以下三个步骤：矩阵划分1410、确定弱相关性矩阵的初始稠密度1420、确定强相关性矩阵的初始稠密度1430。下面，对图14的各子步骤进行详细说明。

步骤1410：矩阵划分

在该步骤中，例如将待压缩的N个矩阵划分为n个弱相关性矩阵和(N-n)个强相关性矩阵，然后对弱相关性矩阵进行聚类，即将若干弱相关性矩阵作为一个弱相关性矩阵组整体考虑。这里，矩阵呈弱相关性意味着矩阵较不敏感，即与神经网络的其他部分相关性较弱。

具体地，矩阵划分可以依据多种标准进行。

根据本发明的一个示例，以待判定矩阵被压缩到某个目标压缩率时神经网络整体WER的增量是否超过某一阈值作为判断标准。

例如，一个具体的判断标准可以是：如果将待判定的矩阵压缩到10％后神经网络的WER增长率、即ΔWER/WER<1％，那么认为矩阵在压缩到10％后与神经网络表现为弱相关；否则，该矩阵在压缩到10％后与神经网络表现为强相关。

根据本发明的另一示例，对不同LSTM网络进行多轮压缩后得到的结果进行分析，从而得到经验标准。

例如，对于LSTM神经网络，每层如下有9个稠密矩阵需要压缩：Wix、Wfx、Wcx、Wox、Wir、Wfr、Wcr、Wor、Wrm。在分析多轮压缩结果后得到的一般经验是：矩阵Wix、Wfx、Wox、Wfr、Wor与神经网络相关性较弱，Wcx、Wcr、Wir、Wrm与神经网络相关性较强。

应理解的是，可以选择其他标准来对矩阵进行划分，这些标准也包含在本发明的范围中。

步骤1420：确定弱相关性矩阵的初始稠密度

在该步骤中，对步骤1410中得到的弱相关性矩阵组整体统一进行扫描，即对该弱相关性矩阵组整体尝试按照不同稠密度进行压缩(所选择的稠密度例如是0.1,0.2,…,0.9，对矩阵的具体压缩方法参考步骤8200)。然后，测量以不同稠密度压缩后的网络的词错误率(WER)。

随后，针对该弱相关性矩阵组，以稠密度为横坐标，WER为纵坐标，绘制在不同稠密度下的WER曲线(稠密度-WER曲线)。

最后，从该稠密度-WER曲线中寻找WER剧烈变化的点所对应的稠密度为该弱相关性矩阵组中各弱相关性矩阵的初始稠密度。例如，可以参考步骤8100选取稠密度-WER曲线的拐点所对应的稠密度作为各弱相关性矩阵的初始稠密度，或者基于其他策略选择初始稠密度。以该初始稠密度压缩各弱相关性矩阵，得到初始压缩后的神经网络。

步骤1430：确定强相关性矩阵的初始稠密度

在该步骤中，首先，在步骤1420中得到的初始压缩后的神经网络的基础上，对步骤1410中划分的强相关性矩阵逐一进行扫描。具体地，保持各弱相关性矩阵压缩至步骤1420中得到的初始稠密度，同时对于每个强相关性矩阵，尝试按照不同稠密度进行压缩(所选择的稠密度例如是0.1,0.2,…,0.9，对矩阵的具体压缩方法参考步骤8200)。然后，测量以不同稠密度压缩后的神经网络的词错误率(WER)。

随后，对于每个强相关性矩阵，以稠密度为横坐标、WER为纵坐标绘制稠密度-WER曲线。针对每个强相关性矩阵都绘制相应的稠密度-WER曲线。

最后，对于每个强相关性矩阵，从相应稠密度-WER曲线中寻找WER剧烈变化的点所对应的稠密度为该矩阵的初始稠密度。针对每个强相关性矩阵都获得相应的初始稠密度。这里，初始稠密度的具体选取策略可以参考步骤8100。

下面，对根据本发明的方法进行敏感度分析的一个示例进行详细说明。

在该示例中，待压缩的网络是两层LSTM网络，其中每层有9个待压缩稠密矩阵，因此总共有18个矩阵待压缩。

-步骤1：依据上文所述的经验标准将待压缩的18个稠密矩阵划分为10个弱相关性矩阵(每层的Wix、Wfx、Wox、Wfr、Wor)和8个强相关性矩阵(每层的Wcx、Wcr、Wir、Wrm)。然后，对10个弱相关性矩阵聚类，形成弱相关性矩阵组；

-步骤2：对步骤1中形成的弱相关性矩阵组统一以稠密度0.1,0.2,…,0.9进行9次敏感度测试，测量以各稠密度压缩后的网络的9个WER值。随后，绘制稠密度-WER曲线，以上文所述的方式确定所述弱相关性矩阵组的初始稠密度。

例如，在一个示例中，根据绘制的稠密度-WER曲线选择出该弱相关性矩阵组的初始稠密度为0.1，由此获得的稠密度序列为(矩阵排列顺序为Wcx、Wix、Wfx、Wox、Wcr、Wir、Wfr、Wor、Wrm)：

[1,0.1,0.1,0.1,1,1,0.1,0.1,1,

1,0.1,0.1,0.1,1,1,0.1,0.1,1]

然后，采用该稠密度序列对网路进行初始压缩。在后续步骤中，保持弱相关性矩阵的稠密度不变。

-步骤3：在步骤2得到的初始压缩网络的基础上，对步骤1中划分的8个强相关性矩阵，以稠密度0.1,0.2,…,0.9进行9次敏感度测试，绘制出相应的8条稠密度-WER曲，从而以上文所述的方式确定各强相关性矩阵的初始稠密度。

例如，在一个示例中，通过稠密度-WER曲线得到的两层LSTM网络中强相关性矩阵Wcx、Wcr、Wir、Wrm的压缩率分别为[0.3,0.4,0.2,0.6]和[0.2,0.3,0.5,0.7]，由此可以确定整个网络的初始稠密度序列为：

[0.3,0.1,0.1,0.1,0.4,0.2,0.1,0.1,0.6,

0.2,0.1,0.1,0.1,0.3,0.5,0.1,0.1,0.7]

技术效果

基于上述技术方案可知，本发明提出的基于矩阵相关性的敏感度分析方法具有以下有益效果：

1、根据本发明的压缩方法有利于在保持期望精度的同时实现较高压缩率。

具体而言，在压缩方法中，对待压缩矩阵按照相对整个网络的相关性的强弱进行划分，首先确定弱相关性矩阵的初始稠密度。这种方式对网络整体精度影响较小，更容易实现较高的压缩率。然后，在保持弱相关性矩阵的初始稠密度不变的基础上对强相关性矩阵进行敏感度试验，进一步确定整个网络的初始稠密度序列。此时，由于在对强相关性矩阵的初始稠密度进行选择时考虑了弱相关性矩阵压缩的影响，因而更贴近最终压缩时的真实情况，有利于最终稠密度序列的确定；

2、根据本发明的压缩方法有助于减少扫描次数，提高确定初始稠密度序列的效率。

例如在上述示例中，如果采用传统的单个矩阵逐一扫描方法确定初始稠密度序列，需要进行9*9*2＝162次敏感度测试。然而，如果采用本发明的压缩方法，只需进行要9+8*9＝81次敏感度测试，节省了一半时间。

以上实施例仅仅以LSTM网络作为说明本发明的例子。应当理解，本发明可以不限于LSTM神经网络，而是可以应用到其他各种神经网络。

需要说明的是，本说明书中的各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种对神经网络进行压缩的方法，所述神经网络的各个神经元之间的权重由多个矩阵表示，该方法包括：

敏感度分析步骤，用于基于所述多个矩阵之间的相关性，分析各个矩阵的敏感度并确定各个矩阵的初始压缩比；

压缩步骤，用于基于所述初始压缩比对所述各个矩阵进行压缩，以获得压缩后的神经网络；

重训步骤，用于重训所述压缩后的神经网络。

2.根据权利要求1的方法，还包括：

迭代执行所述敏感度分析步骤、所述压缩步骤、所述重训步骤。

3.根据权利要求1的方法，其中，所述敏感度分析步骤进一步包括：

矩阵划分步骤，用于将所述多个矩阵划分为多个强相关性矩阵和多个弱相关性矩阵；

矩阵聚类步骤，用于将所述多个弱相关性矩阵聚类为弱相关性矩阵组；

弱相关性矩阵初始压缩比确定步骤，用于分析所述弱相关性矩阵组的敏感度并确定弱相关性矩阵的初始压缩比；

强相关性矩阵初始压缩比确定步骤，用于分析每个强相关性矩阵的敏感度并确定每个强相关性矩阵的初始压缩比。

4.根据权利要求3的方法，其中，所述矩阵划分步骤进一步包括：

将所述多个矩阵中的一个矩阵压缩预定压缩比，并测量压缩后的神经网络的词错误率(WER)增长率；

若WER增长率小于预定阈值，则将所述矩阵划分为弱相关性矩阵；

否则，将所述矩阵划分为强相关性矩阵。

5.根据权利要求3的方法，其中，所述弱相关性矩阵初始压缩比确定步骤进一步包括：

获得压缩前的神经网络词错误率WER_initial；

基于多个不同压缩比(d1,d2,…dn)压缩所述弱相关性矩阵组，并得到压缩后的各个神经网络词错误率WER_d1、WER_d2，…WER_dn；

基于所述各个神经网络词错误率WER_d1、WER_d2，…WER_dn，从所述多个不同压缩比中选择一个作为所述弱相关性矩阵组的各个弱相关性矩阵的初始压缩比。

6.根据权利要求5的方法，其中，从所述多个不同压缩比中选择一个作为初始压缩比进一步包括：

计算各个ΔWER，即WER_initial与WER_d1、WER_d2，…，WER_dn的差值；

基于所述各个ΔWER，选择满足ΔWER小于预定阈值的所有压缩比(d1,d2,…dn)之中最大的压缩比。

7.根据权利要求3的方法，其中，所述强相关性矩阵初始压缩比确定步骤进一步包括：

获得压缩前的神经网络词错误率WER_initial；

基于多个不同压缩比(d1,d2,…dn)压缩所述多个强相关性矩阵中的一个强相关性矩阵，并且基于所述弱相关性矩阵的初始压缩比压缩所述多个弱相关性矩阵，得到压缩后的各个神经网络词错误率WER_d1、WER_d2，…WER_dn；

基于所述各个神经网络词错误率WER_d1、WER_d2，…WER_dn，从所述多个不同压缩比中选择一个作为所述强相关性矩阵的初始压缩比。

8.根据权利要求7的方法，其中，从所述多个不同压缩比中选择一个作为初始压缩比进一步包括：

计算各个ΔWER，即WER_initial与WER_d1、WER_d2，…WER_dn的差值；

9.根据权利要求1的方法，其中，所述压缩步骤进一步包括：

基于各个矩阵的初始压缩比，对相应矩阵进行剪枝(pruning)操作。

10.根据权利要求9的方法，其中，所述剪枝操作包括：

对每个矩阵中的所有元素按照绝对值从小到大进行排序；

保留与所述压缩比相对应比例的绝对值较大的元素；以及

将其余元素置零。

11.根据权利要求1的方法，其中，所述压缩步骤进一步包括：

第一压缩步骤，基于所述各个矩阵的初始压缩比，压缩所述神经网络的各个矩阵；

调整步骤，基于所述第一压缩步骤后的网络的词错误率(WER)，调整所述各个矩阵的初始压缩比，以获得各个矩阵的调整压缩比；

第二压缩步骤，基于所述各个矩阵的调整压缩比，压缩所述神经网络的各个矩阵，以获得压缩后的神经网络。

12.根据权利要求11的方法，其中，所述调整步骤进一步包括：

调整压缩比步骤，调整相对敏感矩阵的压缩比，并以调整后的压缩比对相应矩阵进行压缩；

判断步骤，判断以所述调整后的压缩比压缩后的神经网络的WER是否满足预定要求；如果未满足所述预定要求，则返回所述调整压缩比步骤，以继续调整相对敏感矩阵的压缩比；

如果满足所述预定要求，则把相对敏感矩阵的所述调整后的压缩比作为相应矩阵的调整压缩比。

13.根据权利要求11的方法，其中，所述调整步骤进一步包括：

调整压缩比步骤，调整相对不敏感矩阵的压缩比，并以调整后的压缩比对相应矩阵进行压缩；

判断步骤，判断以所述调整后的压缩比压缩后的神经网络的WER是否满足预定要求；

如果未满足所述预定要求，则返回所述调整压缩比步骤，以继续调整相对不敏感矩阵的压缩比；

如果满足所述预定要求，则把相对不敏感矩阵的所述调整后的压缩比作为相应矩阵的调整压缩比。

14.根据权利要求1所述的方法，其中，所述重训步骤进一步包括：

训练步骤，使用训练集训练所述神经网络，并进行权值矩阵更新；

判断步骤，判断该矩阵是否收敛到局部最优解；

如果未收敛到局部最优解，则返回所述训练步骤；

如果收敛到最优解，则把所述神经网络作为最终神经网络。

15.根据权利要求14所述的方法，其中，所述训练步骤进一步包括：

输入训练集数据，计算损失函数对网络参数的导数，求得梯度矩阵；

采用随机梯度下降法，更新网络中的权值矩阵，其中，更新后的权值矩阵＝更新前的权值矩阵-学习率*梯度矩阵；

针对更新网络中的权值矩阵，计算网络的平均损失；

判断本轮训练是否有效，其中，如果平均损失比上一轮有效训练的平均损失大，则本轮训练无效；如果平均损失比上一轮有效训练的平均损失小，则本轮训练有效；

如果本轮训练无效，且没有达到最大训练轮数，则调整学习率，在上一轮有效训练的基础上继续训练；

如果本轮训练有效，则进行判断步骤。

16.一种对神经网络进行压缩的设备，所述神经网络的各个神经元之间的权重由多个矩阵表示，该设备包括：

敏感度分析单元，用于基于所述多个矩阵之间的相关性，分析各个矩阵的敏感度并确定各个矩阵的初始压缩比；

压缩单元，用于基于所述初始压缩比对所述各个矩阵进行压缩，以获得压缩后的神经网络；

重训单元，用于重训所述压缩后的神经网络。

17.根据权利要求16的设备，其中，所述敏感度分析单元还包括：

矩阵划分单元，用于将所述多个矩阵划分为多个强相关性矩阵和多个弱相关性矩阵；

矩阵聚类单元，用于将所述多个弱相关性矩阵聚类为弱相关性矩阵组；

弱相关性矩阵初始压缩比确定单元，用于分析所述弱相关性矩阵组的敏感度并确定所述弱相关性矩阵的初始压缩比；

强相关性矩阵初始压缩比确定单元，用于分析每个强相关性矩阵的敏感度并确定每个强相关性矩阵的初始压缩比。

18.根据权利要求17的设备，其中，所述矩阵划分单元进一步包括：

错误率测量单元，用于以预定压缩比压缩所述多个矩阵中的一个矩阵，并测量压缩后的神经网络的词错误率(WER)增长率；

判定-分类单元，用于判断WER增长率是否小于预定阈值，如果是，则将所述矩阵划分为弱相关性矩阵，否则，将所述矩阵划分为强相关性矩阵。