CN114492721A

CN114492721A - 神经网络的混合精度量化方法

Info

Publication number: CN114492721A
Application number: CN202011163813.4A
Authority: CN
Inventors: 赖俊宇
Original assignee: Beijing Jingshi Intelligent Technology Co ltd
Current assignee: Beijing Jingshi Intelligent Technology Co ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-13
Also published as: US20220129736A1

Abstract

一种神经网络的混合精度量化方法，神经网络为一第一精度，且包括多个层及一原始最终输出。混合精度量化方法包括以下步骤：对该些层中的一层及该层的输入进行一第二精度的量化(quantize)；根据该第二精度的该层及该层的输入获得该层的输出；对该层的输出进行反量化(dequantize)，并将反量化的该层的输出输入至下一层；获得一最终输出；根据该最终输出与该原始最终输出以获得一目标函数的值；重复上述步骤直到获得每一该些层对应的该目标函数的值；根据每一该些层对应的该目标函数的值决定每一该些层的一量化精度；其中，该量化精度为该第一精度、该第二精度、一第三精度或一第四精度。

Description

神经网络的混合精度量化方法

技术领域

本发明是有关于一种混合精度量化方法，且特别是有关于一种神经网络的混合精度量化方法。

背景技术

在神经网络的应用中，预测过程需要大量的计算资源。神经网络量化可减少计算成本，但是可能会降低预测精准度。目前的量化方法都是使用同一种精度来量化整个神经网络，但此作法缺乏弹性。且目前的量化方法中，大多需要搭配大量已标注数据，并整合至训练流程才可完成。

另外，在目前的方法中，若要判断神经网络中一特定层的量化损失，仅会考虑此特定层的状况，例如此特定层的输出的损失、权重的损失等，并未考虑此特定层对最终结果的影响性，故目前的方法无法在成本与预测精准度之间取得最佳平衡。因此，需要一种量化方法来克服上述问题。

发明内容

本发明的目的在于提出一种神经网络的混合精度量化方法，起可根据部分量化后的神经网络的最后输出的损失，决定此部分的量化精度。

根据本发明的一实施例，提出一种神经网络的混合精度量化方法，神经网络为一第一精度，且包括多个层及一原始最终输出，混合精度量化方法包括以下步骤：对该些层中的一层及该层的输入进行一第二精度的量化(quantize)；根据该第二精度的该层及该层的输入获得该层的输出；对该层的输出进行反量化(dequantize)，并将反量化的该层的输出输入至下一层；获得一最终输出；根据该最终输出与该原始最终输出以获得一目标函数的值；重复上述步骤直到获得每一该些层对应的该目标函数的值；根据每一该些层对应的该目标函数的值决定每一该些层的一量化精度；其中，该量化精度为该第一精度、该第二精度、一第三精度或一第四精度。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1绘示根据本发明一实施例的神经网络的示意图。

图2绘示根据本发明一实施例的神经网络的混合精度量化装置的示意图。

图3绘示根据本发明一实施例的神经网络的混合精度量化方法的流程图。

图4绘示根据本发明一实施例的对神经网络的第一层及其输入进行量化的示意图。

图5绘示根据本发明一实施例的对神经网络的第二层及其输入进行量化的示意图。

图6绘示根据本发明一实施例的对神经网络的第三层及其输入进行量化的示意图。

图7绘示根据本发明另一实施例的神经网络的混合精度量化方法的流程图。

附图标记

NN：神经网络

L1：第一层

L2：第二层

L3：第三层

100：混合精度量化装置

110：量化单元

120：处理单元

130：反量化单元

S110-S170、S210-S280：步骤

具体实施方式

下面结合附图对本发明的结构原理和工作原理作具体的描述：

请参照图1，其绘示根据本发明一实施例的神经网络NN的示意图。神经网络NN具有第一层L1、第二层L2及第三层L3。第一层L1的输入为X1且输出为X2、第二层L2的输入为X2且输出为X3及第三层L3的输入为X3且输出为X4。也就是说，X2同时为第一层L1的输出及第二层L2的输入，X3同时为第二层L2的输出及第三层L3的输入。其中，X4为神经网络NN的最终输出，以下称为原始最终输出。神经网络NN为已训练的神经网络，且以一第一精度运算。第一精度例如为32位浮点数(FP32)或64位浮点数(FP64)，本发明不以此为限。在另一实施例中，神经网络NN可为两层或更多层。为方便说明，故以神经网络NN具有三层为例。

请参照图2，其绘示根据本发明一实施例的神经网络的混合精度量化装置100的示意图。混合精度量化装置100包括一量化单元110、一处理单元120及一反量化单元130。量化单元110、处理单元120及反量化单元130例如是一芯片、一电路板或一电路。

图3绘示根据本发明一实施例的神经网络的混合精度量化方法的流程图。图4绘示根据本发明一实施例的对神经网络NN的第一层L1及其输入进行量化的示意图。图5绘示根据本发明一实施例的对神经网络NN的第二层L2及其输入进行量化的示意图。图6绘示根据本发明一实施例的对神经网络NN的第三层L3及其输入进行量化的示意图。以下以硬件支持两种量化精度为例进行说明，两种量化精度分别为第二精度及第三精度。第二精度及第三精度分别为4位整数(INT4)、8位整数(INT8)、16位脑浮点(BF16)其中之一，但本发明不以此为限。在此实施例中，第一精度高于第二精度及第三精度，且第三精度高于第二精度。请同时参照图1至图6。

步骤S110，量化单元110对神经网络NN的多个层中的一层及该层的输入进行一第二精度的量化(quantize)。举例来说，量化单元110首先对第一层L1及第一层L1的输入X1进行第二精度的量化，以获得第二精度的第一层L1'及输入X11，如图2及图4所示。

步骤S120，处理单元120根据第二精度的该层及该层的输入获得该层的输出。举例来说，处理单元120根据量化为第二精度的第一层L1'及第一层L1'的输入X11获得输出X12，如图2及图4所示。此时输出X12为第二精度。

步骤S130，对该层的输出进行反量化(dequantize)，并将反量化的该层的输出输入至下一层。举例来说，反量化单元130对第一层L1'的输出X12进行反量化以得到反量化的第一层L1'的输出X2'，并将输出X2'输入至第二层L2，如图4所示。此时反量化后的输出X2'为第一精度。

步骤S140，处理单元120获得一最终输出。举例来说，处理单元120获得第二层L2的输出X3'，并输入至第三层L3，如图4所示。接着获得第三层L3的输出X4'。输出X4'为神经网络NN的最后输出。第二层L2、第二层L2的输出X3'、第三层L3及第三层L3的输出X4'为第一精度。也就是说，在图4中，仅第一层L1'的输入X11、第一层L1'及第一层L1'的输出X12为第二精度。

步骤S150，处理单元120根据最终输出与原始最终输出以获得一目标函数的值。举例来说，处理单元120根据最终输出X4'与原始最终输出X4获得目标函数LS1的值。目标函数LS1可为信号量化噪声比(Signal-to-quantization-noiseratio,SQNR)、交叉熵(crossentropy)、余弦相似度(cosinesimilarity)、或KL散度(KLdivergence)，本发明不以此为限，只要可计算出最终输出X4'与原始最终输出X4之间的损失即可。在另一实施例中，处理单元120根据部分的最终输出X4'与部分的原始最终输出X4以获得目标函数LS1的值。例如，神经网络NN用于物体检测，故最终输出X4'及原始最终输出X4包含坐标及类别，处理单元120可根据最终输出X4'的坐标与原始最终输出X4的坐标获得目标函数LS1的值。

在另一实施例中，当最终输出X4'及原始最终输出X4为多个时，则在步骤S150中处理单元120可根据多个最终输出X4'与多个原始最终输出X4获得目标函数的值。举例来说，处理单元120可平均、加权平均或取部分的多个最终输出X4'与多个原始最终输出X4，以获得目标函数的值。但本发明不以此为限，只要是根据多个最终输出X4'与多个原始最终输出X4获得目标函数的值即可。

步骤S160，处理单元120判断是否获得每一层量化后所对应的目标函数的值。若是，则进入步骤S170；若否，则回到步骤S110，量化单元110对另一层(例如第二层L2或第三层L3)及此另一层的输入(第二层L2的输入X2或第三层L3的输入X3)进行第二精度的量化，以得到此另一层所对应的目标函数的值。也就是说，步骤S110至S150会执行多次直到获得每一层对应的目标函数的值，且每一次执行步骤S110至S150都是独立的。例如获得第一层L1量化后的最终输出X4'与原始最终输出X4的目标函数LS1的值之后(如图1、图2及图4所示)，再次执行步骤S110至S150以获得第二层L2量化后的最终输出X4”与原始最终输出X4的目标函数LS2的值(如图1、图2及图5所示)，最后再次执行步骤S110至S150以获得第三层L3量化后的最终输出X4”'与原始最终输出X4的目标函数LS3的值(如图1、图2及图6所示)。在获得每一层对应的目标函数的值之后，进入步骤S170。

步骤S170，处理单元120根据每一层对应的目标函数的值决定每一层的一量化精度。更进一步来说，处理单元120根据每一层对应的目标函数的值是否大于一门槛值，决定每一层分别以第二精度或第三精度进行量化。举例来说，假设第一层L1的目标函数的值大于门槛值，表示损失小，则处理单元120决定以第二精度对第一层L1进行量化。假设第二层L2的目标函数的值未大于门槛值，表示损失大，则处理单元120决定以第三精度对第二层L2进行量化。假设第三层L3的目标函数的值未大于门槛值，表示损失大，则处理单元120决定以第三精度对第三层L3进行量化。换句话说，对于量化后损失大的层，以硬件可支持的两种量化精度中量化精度较高的第三精度对该层进行量化；对于量化后损失小的层，以硬件可支持的两种量化精度中量化精度较低的第二精度对该层进行量化。

图7绘示根据本发明另一实施例的神经网络的混合精度量化方法的流程图。现以图1的神经网络NN搭配图7的方法进行说明。神经网络NN为已训练的神经网络，且以一第一精度运算。第一精度例如为32位浮点数(FP32)或64位浮点数(FP64)，本发明不以此为限。以下为硬件支持的四种量化精度为例，四种量化精度分别为第一精度、第二精度、第三精度及第四精度。第二精度、第三精度及第四精度分别为4位整数(INT4)、8位整数(INT8)、16位脑浮点(BF16)其中之一，但本发明不以此为限。在此实施例中，第一精度高于第二精度、第三精度及第四精度，且第四精度高于第三精度以及第三精度高于第二精度。请同时参照图1、图2、图4至图7。图7的步骤S210至S260类似于图3的步骤S110至S160，在此不多赘述。在图7中，首先以第二精度执行多次步骤S210至S260以获得每一层以第二精度量化后所对应的目标函数的值，接着进入步骤S270。

步骤S270，处理单元120根据每一层对应的目标函数的值决定每一层的一量化精度。更进一步来说，处理单元120根据每一层对应的目标函数的值是否大于一门槛值，决定每一层分别以第二精度进行量化或者需进一步判断要以第三精度或第四精度进行量化。举例来说，假设第一层L1的目标函数的值大于门槛值，表示损失小，则处理单元120决定以第二精度对第一层L1进行量化。假设第二层L2及第三层L3的目标函数的值未大于过门槛值，表示损失大，则第二层L2及第三层L3的量化精度可能决定为第三精度或第四精度或者不进行量化(亦即保留在第一精度)。

接着，进入步骤S280，处理单元120判断是否每一层都已决定一精度。若是，则结束流程；若否，则回到步骤S210，以另一精度(例如第三精度)执行多次步骤S210至S260，直到获得还未决定精度的每一层(第二层L2及第三层L3)量化后所对应的目标函数的值。接着进入步骤S270，处理单元120根据还未决定精度的每一层(第二层L2及第三层L3)对应的目标函数的值决定还未决定精度的每一层的一量化精度。图7的实施例与图3的实施例不同之处在于，图7的量化精度超过两种。故以第二精度执行完步骤S210至S270之后，仅决定第一层L1的量化精度为第二精度，还未决定第二层L2及第三层L3的量化精度(可能为第三精度或第四精度或不进行量化(亦即保留在第一精度))。因此，以第三精度针对未决定精度的第二层L2及第三层L3再次执行步骤S210至S270，以决定第二层L2及第三层L3的量化精度。举例来说，由于在步骤S280中，处理单元120判断还未决定第二层L2及第三层L3的量化精度，因此回到步骤S210，以第三精度执行步骤S210至S260，获得第二层L2对应的目标函数的值及第三层L3对应的目标函数的值。接着再次进入步骤S270，处理单元120根据第二层L2及第三层L3对应的目标函数的值决定第二层L2及第三层L3的一量化精度。更进一步来说，处理单元120根据第二层L2及第三层L3对应的目标函数的值是否大于另一门槛值，决定第二层L2及第三层L3分别以第三精度或第四精度进行量化。举例来说，假设第二层L2的目标函数的值大于此另一门槛值，表示损失小，则处理单元120决定以第三精度对第二层L2进行量化。假设第三层L3的目标函数的值未大于此另一门槛值，表示损失大，则第三层L3的量化精度可能决定为第四精度或者不进行量化(亦即保留在第一精度)。

接着，由于在步骤S280中，处理单元120判断还未决定第三层L3的量化精度，因此回到步骤S210，以第四精度执行步骤S210至S260，获得第三层L3对应的目标函数的值。接着再次进入步骤S270，处理单元120根据第三层L3对应的目标函数的值决定第三层L3的一量化精度。更进一步来说，处理单元120根据第三层L3对应的目标函数的值是否大于另一门槛值，决定第三层L3以第四精度进行量化或者不进行量化(亦即保留在第一精度)。举例来说，假设第三层L3的目标函数的值大于此另一门槛值，表示损失小，则处理单元120决定以第四精度对第三层L3进行量化。假设第三层L3的目标函数的值未大于此另一门槛值，表示损失大，则处理单元120决定第三层L3不进行量化(亦即保留在第一精度)。

上述的图3及图7的神经网络的混合精度量化方法是以层为单位执行，但在另一实施例中，本发明也可以张量(tensor)为单位来执行，本发明不以此为限。换句话说，本发明提出的神经网络的混合精度量化方法，是根据部分量化后所对应的神经网络的最后输出的损失，决定此部分的量化精度。

如此一来，通过本发明提出的神经网络的混合精度量化方法，根据每一部分量化后所对应的神经网络的最后输出的损失，决定每一部分的量化精度，可在成本与预测精准度之间取得最佳平衡。另外，本发明提出的神经网络的混合精度量化方法，仅需少量未标注的数据(例如100至1000笔)，且不需要整合神经网络的训练流程即可完成。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种神经网络的混合精度量化方法，该神经网络为一第一精度，且包括多个层及一原始最终输出，其特征在于，该混合精度量化方法包括：

对该些层中的一层及该层的输入进行一第二精度的量化；

根据该第二精度的该层及该层的输入获得该层的输出；

对该层的输出进行反量化，并将反量化的该层的输出输入至下一层；

获得一最终输出；

根据该最终输出与该原始最终输出以获得一目标函数的值；

重复上述步骤直到获得每一该些层对应的该目标函数的值；以及

根据每一该些层对应的该目标函数的值决定每一该些层的一量化精度；

其中，该量化精度为该第一精度、该第二精度、一第三精度或一第四精度。

2.如权利要求1所述的混合精度量化方法，其特征在于，其中该第一精度高于该第二精度及该第三精度，且该第三精度高于该第二精度。

3.如权利要求2所述的混合精度量化方法，其特征在于，其中该第一精度高于该第四精度，且该第四精度高于该第三精度。

4.如权利要求2所述的混合精度量化方法，其特征在于，其中该第一精度为32位浮点数或64位浮点数。

5.如权利要求2所述的混合精度量化方法，其特征在于，其中该第二精度为4位整数。

6.如权利要求2所述的混合精度量化方法，其特征在于，其中该第三精度为8位整数。

7.如权利要求2所述的混合精度量化方法，其特征在于，其中该第四精度为16位脑浮点。

8.如权利要求1所述的混合精度量化方法，其特征在于，其中该目标函数为信号量化噪声比、交叉熵、余弦相似度、或KL散度。

9.如权利要求1所述的混合精度量化方法，其特征在于，其中当该最终输出及该原始最终输出为多个时，则在根据该最终输出与该原始最终输出以获得该目标函数的值的步骤中，包括：

根据该些最终输出与该些原始最终输出以获得该目标函数的值。

10.如权利要求1所述的混合精度量化方法，其特征在于，其中当该最终输出及该原始最终输出为多个时，则在根据该最终输出与该原始最终输出以获得该目标函数的值的步骤中，包括：

根据部分的该最终输出与部分的该原始最终输出以获得该目标函数的值。