CN112085181B

CN112085181B - 神经网络量化方法及装置以及相关产品

Info

Publication number: CN112085181B
Application number: CN201910886577.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2019-06-12
Filing date: 2019-09-19
Publication date: 2024-03-29
Anticipated expiration: 2039-09-19
Also published as: CN112085191A; CN111652368A; CN112400176A; JP2021177369A; JP2021179966A; CN112085186B; EP3772022B1; CN112085183B; EP3772022A1; CN112085185B; CN112085192A; CN112085190A; CN112085188A; CN112085193B; CN112085185A; EP3998554A4; JP2021530769A; US20210286688A1; KR20210011462A; CN112085192B

Abstract

本披露涉及一种神经网络量化方法及装置以及相关产品，其中，相关产品包括板卡。所述板卡包括：存储器件、接口装置和控制器件以及人工智能芯片；其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；所述存储器件，用于存储数据；所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；所述控制器件，用于对所述人工智能芯片的状态进行监控。

Description

神经网络量化方法及装置以及相关产品

技术领域

本披露涉及人工智能技术领域，尤其涉及一种神经网络量化方法及装置以及相关产品。

背景技术

随着人工智能技术的不断发展，其应用领域越来越广泛，在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。然而，随着人工智能算法的复杂度提高，需要处理的数据量和数据维度都在不断增大，如何在运算效率和运算结果的准确度之间进行平衡，是人工智能领域亟待解决的问题。

发明内容

有鉴于此，本披露提出了一种神经网络量化技术方案。

根据本披露的一方面，提供了一种神经网络量化方法，对于所述神经网络中的任意一层待量化层，所述方法包括：

确定与所述待量化层中每种待量化数据对应的量化参数，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种；

将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算。

根据本披露的另一方面，提供了一种神经网络量化装置，所述装置用于量化所述神经网络中的任意一层待量化层，所述装置包括：

量化参数确定模块，用于确定与所述待量化层中每种待量化数据对应的量化参数，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种；

量化模块，用于将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算。

根据本披露的另一方面，提供了一种人工智能芯片，所述芯片包括上述神经网络量化装置。

根据本披露的另一方面，提供了一种电子设备，所述电子设备包括如上所述的人工智能芯片。

根据本披露的另一方面，提供了一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及如上所述的人工智能芯片；其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；所述存储器件，用于存储数据；所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；所述控制器件，用于对所述人工智能芯片的状态进行监控。

在本披露实施例中，对于所述神经网络中的任意一层待量化层，确定与所述待量化层中每种待量化数据对应的量化参数，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种；将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算。采用更加符合各层待量化数据的量化参数对各待量化层进行量化，可以在保证各层运算结果准确率的前提下，提高各层的运算效率。也可以在保证神经网络整体的运算结果准确率的前提下，提高神经网络整体的运算效率。

根据下面参考附图对示例性实施例的详细说明，本披露的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本披露的示例性实施例、特征和方面，并且用于解释本披露的原理。

图1示出根据本披露实施例的神经网络量化方法的流程图。

图2示出根据本披露实施例的神经网络量化方法的流程图。

图3示出根据本披露实施例的神经网络量化方法的流程图。

图4示出根据本披露实施例的神经网络量化方法的流程图。

图5示出根据本披露实施例的神经网络量化方法中量化参数不包括偏移量时，量化前后的数据对应示意图。

图6示出根据本披露实施例的神经网络量化方法的流程图。

图7示出根据本披露实施例的神经网络量化方法中量化参数包括偏移量时，量化前后的数据对应示意图。

图8示出根据本披露实施例的神经网络量化方法的流程图。

图9示出根据本披露实施例的神经网络量化方法的流程图。

图10示出根据本披露实施例的神经网络量化方法的流程图。

图11示出根据本披露实施例的神经网络量化方法的流程图。

图12示出根据本披露实施例的神经网络量化方法的流程图。

图13示出根据本披露实施例的神经网络量化方法的流程图。

图14示出根据本披露实施例的神经网络量化方法的流程图。

图15示出根据本披露实施例的神经网络量化方法的流程图。

图16示出根据本披露实施例的神经网络量化方法的流程图。

图17示出根据本披露实施例的神经网络量化方法的流程图。

图18示出根据本披露实施例的神经网络量化方法的流程图。

图19示出根据本披露实施例的神经网络量化方法的流程图。

图20示出根据本披露实施例的神经网络量化方法的流程图。

图21示出根据本披露实施例的神经网络量化方法的流程图。

图22示出根据本披露实施例的神经网络量化方法的流程图。

图23示出根据本披露实施例的神经网络量化方法的流程图。

图24示出根据本披露实施例的神经网络量化方法的流程图。

图25示出根据本披露实施例的神经网络量化方法的流程图。

图26示出根据本披露实施例的神经网络量化装置的示意图。

图27示出根据本披露实施例的神经网络量化装置的示意图。

图28示出根据本披露实施例的神经网络量化装置的示意图。

图29示出根据本披露实施例的神经网络量化装置的示意图。

图30示出根据本披露实施例的神经网络量化装置的示意图。

图31示出根据本披露实施例的板卡的结构框图。

具体实施方式

下面将结合本披露实施例中的附图，对本披露实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本披露一部分实施例，而不是全部的实施例。基于本披露中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本披露保护的范围。

应当理解，本披露的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本披露，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本披露同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本披露的主旨。

神经网络中待运算数据通常为浮点数据格式或精度较高的定点数据格式，在承载神经网络的芯片中运行神经网络时，浮点数据格式或精度较高的定点数据格式的各种待运算数据，导致神经网络运行的运算量和访存开销都较大。为提高运算效率，可以将神经网络中的待运算数据进行量化，量化后的数据格式通常为位宽较短、精度较低的定点数据格式。利用精度较低的量化后数据执行神经网络的运算，可以降低运算量和访存量。量化后的数据格式可以为位宽较短的定点数据格式。可以将浮点数据格式的待运算数据量化为定点数据格式的待运算数据，也可以将精度较高的定点格式的待运算数据量化为精度较低的定点格式的待运算数据。

可以理解的是，量化精度即量化后数据与量化前数据之间的误差的大小。量化精度可以影响神经网络运算结果的准确度。化精度越高，运算结果的准确率越高，但运算量更大、访存开销也更大。相较于位宽较短的量化后数据，位宽较长的量化后数据的量化精度更高，用于执行神经网络的运算时准确率也更高。但在用于进行神经网络的运算时，位宽较长的量化后数据运算量更大、访存开销也较大，运算效率较低。同理，对于相同的待量化数据，采用不同的量化参数得到的量化后数据有不同的量化精度，将产生不同的量化结果，对运算效率和运算结果的准确率也会带来不同的影响。对神经网络进行量化，在运算效率和运算结果的准确率之间进行平衡，可以采用更加符合待运算数据的数据特征的量化后数据位宽和量化参数。

神经网络中的待运算数据可以包括权值、神经元、偏置、梯度，在传统的对神经网络中的待运算数据进行量化时，通常为整个神经网络设置相同的量化参数。例如，神经网络中包括4个卷积层2个全连接层，待运算数据为神经元(通常为输入神经元)，可以为神经网络设置一套用于量化的量化参数A，并利用量化参数A对4个卷积层和2个全连接层的神经元进行量化。由于神经网络中各层的神经元不同，各层所用的算法也不同，利用相同的量化参数对各层进行量化，量化参数不能适应各层的神经元的特征，导致神经网络的整体量化精度低，运算结果的准确率低。另，如果在为神经网络设置一套量化参数时，因考虑运算结果的准确率、提高量化精度，设置一套位宽较长的量化后位宽，又会降低神经网络的运算效率。因此，传统的神经网络的量化方法，无法在提高量化精度和提高运算效率之间进行有效的平衡。

图1示出根据本披露实施例的神经网络量化方法的流程图。该神经网络量化方法可应用于通用处理器(例如中央处理器CPU、图形处理器GPU)和专用处理器(例如人工智能处理器、科学计算处理器或数字信号处理器等)中，本披露对神经网络量化方法所应用的处理器的类型不作限制。

如图1所示，对于所述神经网络中的任意一层待量化层，所述神经网络量化方法包括：

步骤S10，确定与所述待量化层中每种待量化数据对应的量化参数，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种。

神经网络中的待量化层可以为神经网络中的任意一层。可以根据需求将神经网络中的部分层或全部层确定为待量化层。当神经网络中包括多个待量化层时，各待量化层可以连续也可以不连续。根据神经网络的不同，待量化层的种类也可以不同，例如待量化层可以为卷积层、全连接层等，本披露对待量化层的数量及类型不做限定。

在一种可能的实现方式中，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种。

用于执行待量化层运算的运算数据可以包括神经元、权值、偏置和梯度。可以根据需求，将待量化层中的神经元、权值、偏置、梯度中的至少一种作为待量化数据。当待量化层中有多种待量化数据时，针对每种待量化数据可以采用本披露中的量化方法进行量化后，得到与每种待量化数据对应的量化数据，再利用各种量化数据和不需要进行量化的运算数据执行待量化层的运算。进一步的，可以根据需求，将待量化层中各种运算数据中的全部数据或部分数据确定为待量化数据，本披露对此不做限定。

神经网络运算的推理阶段可包括：将训练好的神经网络进行前向运算以完成设定任务的阶段。在神经网络的推理阶段，可以将神经元、权值、偏置和梯度中的至少一种作为待量化数据，根据本披露实施例中的方法进行量化后，利用量化后的数据完成待量化层的运算。

神经网络运算的微调阶段可包括：将训练好的神经网络进行预设数量迭代的前向运算和反向运算，进行参数的微调以适应设定任务的阶段。在神经网络运算的微调阶段，可以将神经元、权值、偏置、梯度中的至少一种，根据本披露实施例中的方法进行量化后，利用量化后的数据完成待量化层的前向运算或反向运算。

神经网络运算的训练阶段可包括：将初始化的神经网络进行迭代训练以得到训练好的神经网络的阶段，训练好的神经网络可执行特定任务。在神经网络的训练阶段，可以将神经元、权值、偏置、梯度中的至少一种，根据本披露实施例中的方法进行量化后，利用量化后的数据完成待量化层的前向运算或反向运算。

待量化层对应的量化参数可以为一个量化参数，也可以为多个量化参数。

量化参数可以包括点位置等用于对待量化数据进行量化的参数。点位置可以用于确定量化后数据中小数点的位置。量化参数还可以包括缩放系数、偏移量等。当神经网络中包括多个待量化层时，各待量化层均可以有对应的量化参数，且各待量化层对应的量化参数可以不同，也可以相同，本披露对此不做限定。

对于待量化层中不同的待量化数据，可以对应不同的量化参数。例如，待量化层1中的神经元可以对应量化参数1，待量化层1中的权值可以对应量化参数2。确定待量化层中与每种待量化数据对应的量化参数的方式，可以包括查找预设的量化参数直接确定量化参数的方式、查找对应关系以确定量化参数的方式，或根据待量化数据计算得到量化参数的方式。例如：

可以为神经网络中的待量化层设定与待量化层中每种待量化数据对应的量化参数。可以将设定好的量化参数存储于设定的存储空间。设定的存储空间可以为片上或片外的存储空间。例如，可以将设定好的量化参数以层标识进行区分并存储于设定的存储空间。各待量化层在进行量化时，可以在设定的存储空间提取对应的量化参数后进行量化。可以根据经验值设定与每种待量化数据对应的量化参数。也可以根据需求更新设定好的与每种待量化数据对应的量化参数，例如可以根据前一层的量化参数更新后一层的量化参数。

可以根据各待量化层中的待量化数据的数据特征或待量化层的层特征，通过查找数据特征与量化参数的对应关系，或查找层特征与量化参数的对应关系，确定量化参数。例如，待量化数据的数据分布为稀疏和稠密时可以分别对应不同的量化参数。可以通过查找对应关系确定与待量化数据的数据分布对应的量化参数。又如，待量化层为卷积层或全连接层时可以分别对应不同的量化参数，当待量化层为卷积层时可以查找与卷积层对应的量化参数。

还可以根据各待量化层中的待量化数据，利用设定的量化参数计算方法，计算得到各待量化层对应的量化参数。例如，可以根据待量化数据的绝对值最大值和预设的数据位宽，利用取整算法计算得到量化参数中的点位置。

步骤S20，将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算。

可以利用设定的量化算法，根据量化参数对待量化数据进行量化，得到量化数据。例如，可以利用取整算法作为量化算法，可以根据数据位宽和点位置对待量化数据进行取整量化得到量化数据。其中，取整算法可以包括向上取整、向下取整、向零取整和四舍五入取整等。本披露对量化算法的具体实现方式不做限定。

当神经网络中有多个待量化层时，各待量化层中的每种待量化数据可以分别采用对应的量化参数进行量化。由于与各待量化数据对应的量化参数更为贴合各待量化数据自身特征，因此各待量化层的每种量化数据的量化精度更加符合本层的运算需求。在保证本层运算结果准确率的前提下，能够提高本层的运算效率，达到本层的运算效率和运算结果准确率之间的平衡。对于神经网络整体，实现各待量化层的运算结果的准确率和运算效率之间的平衡，也就实现了神经网络整体运算结果的准确率和运算效率之间的平衡。

在神经网络的推理、训练和微调过程中，可以对目标数据进行离线量化或在线量化。其中，离线量化可以为利用量化参数对待量化数据进行离线处理。在线量化可以为利用量化参数对待量化数据进行在线处理。例如，神经网络运行在人工智能芯片上，可以将待量化数据和量化参数发送至人工智能芯片之外的运算装置进行离线量化，或利用人工智能芯片之外的运算装置对预先得到的待量化数据和量化参数进行离线量化。而在人工智能芯片运行神经网络的过程中，人工智能芯片可以对待量化数据利用量化参数进行在线量化。在神经网络中包括多个待量化层时，各待量化层可以分别进行在线量化和离线量化。本披露中对各待量化层的量化过程为在线或离线不作限定。

在本实施例中，对于所述神经网络中的任意一层待量化层，确定与所述待量化层中每种待量化数据对应的量化参数，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种；将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算。采用更加符合各层待量化数据的量化参数对各待量化层进行量化，可以在保证各层运算结果准确率的前提下，提高各层的运算效率。也可以在保证神经网络整体的运算结果准确率的前提下，提高神经网络整体的运算效率。

在一种可能的实现方式中，所述量化参数包括点位置、缩放系数和偏移量中的至少一种，其中，所述点位置为量化后小数点的位置，所述缩放系数为量化后数据的最大值与待量化数据的最大绝对值之间的比值，所述偏移量为待量化数据的中间值。

在一种可能的实现方式中，量化参数可以包括点位置。可以利用如下的公式(1)对待量化数据进行量化，得到量化数据I_x：

其中，s为点位置，I_x为量化数据，F_x为待量化数据，round为进行四舍五入的取整运算。可以理解的是，也可以采用其他的取整运算方法，例如采用向上取整、向下取整、向零取整等取整运算，替换公式(1)中的四舍五入的取整运算。可以理解的是，在数据位宽一定的情况下，根据点位置量化得到的量化数据中，小数点后的位数越多，量化数据的量化精度越大。

在一种可能的实现方式中，量化参数可以包括缩放系数。可以利用如下的公式(2)对待量化数据进行量化，得到量化数据I_x：

其中，f为缩放系数，I_x为量化数据，F_x为待量化数据，round为进行四舍五入的取整运算。可以理解的是，也可以采用其他的取整运算方法，例如采用向上取整、向下取整、向零取整等取整运算，替换公式(2)中的四舍五入的取整运算。可以理解的是，在数据位宽一定的情况下，采用不同的缩放系数，可以调整量化后数据的数值范围。

在一种可能的实现方式中，量化参数可以包括偏移量。可以利用如下的公式(3)对待量化数据进行量化，得到量化数据I_x：

I_x＝round(F_x-o)公式(3)

其中，o为偏移量，I_x为量化数据，F_x为待量化数据，round为进行四舍五入的取整运算。可以理解的是，也可以采用其他的取整运算方法，例如采用向上取整、向下取整、向零取整等取整运算，替换公式(3)中的四舍五入的取整运算。可以理解的是，在数据位宽一定的情况下，采用不同的偏移量，可以调整量化后数据的数值与量化前数据之间的偏移量。

在一种可能的实现方式中，量化参数可以包括点位置和缩放系数。可以利用如下的公式(4)对待量化数据进行量化，得到量化数据I_x：

其中，s为点位置，f为缩放系数，I_x为量化数据，F_x为待量化数据，round为进行四舍五入的取整运算。可以理解的是，也可以采用其他的取整运算方法，例如采用向上取整、向下取整、向零取整等取整运算，替换公式(4)中的四舍五入的取整运算。

在一种可能的实现方式中，量化参数可以包括点位置和偏移量。可以利用如下的公式(5)对待量化数据进行量化，得到量化数据I_x：

其中，s为点位置，o为偏移量，I_x为量化数据，F_x为待量化数据，round为进行四舍五入的取整运算。可以理解的是，也可以采用其他的取整运算方法，例如采用向上取整、向下取整、向零取整等取整运算，替换公式(5)中的四舍五入的取整运算。

在一种可能的实现方式中，量化参数可以包括点位置、缩放系数和偏移量。可以利用如下的公式(6)对待量化数据进行量化，得到量化数据I_x：

其中，s为点位置，f为缩放系数，o为偏移量，I_x为量化数据，F_x为待量化数据，round为进行四舍五入的取整运算。可以理解的是，也可以采用其他的取整运算方法，例如采用向上取整、向下取整、向零取整等取整运算，替换公式(6)中的四舍五入的取整运算。

在本实施例中，量化参数包括点位置、缩放系数和偏移量中的至少一种。采用不同的量化参数的组合对待量化数据进行量化，可以产生不同精度的量化结果。可以根据需求对量化参数进行灵活组合后按需取用。

图2示出根据本披露实施例的神经网络量化方法的流程图。如图2所示，所述神经网络量化方法中的步骤S10，包括：

步骤S11，通过查找待量化数据与量化参数对应关系，确定与所述待量化层中每种待量化数据对应的量化参数。

在一种可能的实现方式中，各待量化层中与每种待量化数据对应的量化参数，可以是保存的预设值。可以为神经网络建立一个待量化数据与量化参数之间的对应关系，该对应关系可以包括各待量化层的每种待量化数据与量化参数对应关系，并将对应关系保存在各层可以共享访问的存储空间。也可以为神经网络建立多个待量化数据与量化参数之间的对应关系，各待量化层分别对应其中一个对应关系。可以将各层的对应关系保存在本层独享的存储空间，也可以将各层的对应关系保存在各层可以共享访问的存储空间。

在待量化数据与量化参数对应关系中，可以包括多个待量化数据和与之对应的多个量化参数之间的对应关系。例如，待量化数据与量化参数对应关系A中，可以包括待量化层1的神经元和权值两个待量化数据，神经元对应点位置1、缩放系数1和偏移量1三个量化参数，权值对应点位置2和偏移量2两个量化参数。本披露对待量化数据与量化参数对应关系的具体格式不做限定。

在本实施例中，可以通过查找待量化数据与量化参数对应关系，确定与所述待量化层中每种待量化数据对应的量化参数。可以为各待量化层预设对应的量化参数，并通过对应关系进行存储后，供待量化层查找后使用。本实施例中量化参数的获取方式简单方便。

图3示出根据本披露实施例的神经网络量化方法的流程图。如图3所示，所述神经网络量化方法中的步骤S10，包括：

步骤S12，根据每种待量化数据和对应的数据位宽计算得到对应的量化参数。

可以为各待量化数据预设相应的数据位宽n。可以根据数据位宽n和各待量化数据计算得到与各待量化数据对应的量化参数。根据待量化数据自身计算得到的量化参数，更加符合待量化数据自身的特征。

可以在神经网络的推理、训练和微调过程中，待量化数据可以为神经元、权值、偏置中的至少一个。对于训练和微调过程，待量化数据还可以包括梯度。可以在神经网络的推理、训练和微调过程中，根据在线获取到的各待量化数据和与之对应的数据位宽，计算与各待量化数据对应的量化参数。

在本实施例中，根据每种待量化数据和对应的数据位宽计算得到对应的量化参数。根据在线的待量化数据计算得到的量化参数，能够更加符合神经网络待量化层中各种待量化数据自身的量化需求。

图4示出根据本披露实施例的神经网络量化方法的流程图。如图4所示，所述神经网络量化方法中步骤S12，包括：

步骤S121，当所述量化参数不包括偏移量时，根据目标数据中的绝对值最大值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

在一种可能的实现方式中，量化参数可以包括多个参数，当量化参数不包括偏移量时，量化参数可以包括点位置和缩放系数中的至少一个。当量化参数不包括偏移量时，可以将任一待量化数据作为目标数据。目标数据可以为神经元、权值、偏置和梯度中的任意一种。

目标数据可以包括由多个元素组成的数据。可以在目标数据的各元素中确定最大值和最小值，并根据最大值的绝对值和最小值的绝对值得到目标数据中的绝对值最大值。也可以确定目标数据中各元素的绝对值，并根据各元素的绝对值得到目标数据中的绝对值最大值。

图5示出根据本披露实施例的神经网络量化方法中量化参数不包括偏移量时，量化前后的数据对应示意图。如图5所示，Z₁为目标数据中的绝对值最大值，目标数据对应的数据位宽n为8，A为用数据位宽n量化目标数据后可以表示的最大值，A为2^s(2^n-1-1)。A需要包含Z₁，且Z₁要大于可以用公式(7)对此进行约束：

2^s(2^n-1-1)≥Z₁>2^s-1(2^n-1-1)公式(7)

可以根据目标数据中的绝对值最大值和数据位宽，计算得到目标数据的点位置。例如，可以利用如下公式(8)计算得到量化参数不包括偏移量时，目标数据的点位置s：

其中，ceil为向上取整，Z₁为目标数据中的绝对值最大值，s为点位置，n为目标数据对应的数据位宽。

在本实施例中，当所述量化参数不包括偏移量时，根据目标数据中的绝对值最大值和所述目标数据对应的数据位宽，得到所述目标数据的点位置。根据目标数据计算得到与之对应的点位置，可以更加符合目标数据自身的特征，使得目标数据的量化精度更高。

图6示出根据本披露实施例的神经网络量化方法的流程图。如图6所示，所述神经网络量化方法中步骤S12，包括：

步骤S122，当所述量化参数不包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；

步骤S123，根据目标数据中的绝对值最大值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

目标数据中的绝对值最大值可参照上述实施例中的相关阐述。

可以利用公式(9)计算得到量化参数不包括偏移量时，目标数据的缩放系数f:

其中，A为量化参数不包括偏移量时，目标数据量化后数据的最大值，可以利用公式(10)计算A：

在本实施例中，当量化参数不包括偏移量时，可以根据目标数据中的绝对值最大值和目标数据对应的数据位宽，计算得到目标数据对应的缩放系数。根据目标数据计算得到与之对应的缩放系数，可以更加符合目标数据自身的特征，使得目标数据的量化精度更高。

图7示出根据本披露实施例的神经网络量化方法中量化参数包括偏移量时，量化前后的数据对应示意图。如图7所示，A1和A2为用n量化目标数据后可以表示的最大值和最小值，Z_min为目标数据中所有元素的最小值，Z_max为目标数据中所有元素的最大值，可以将目标数据按照偏移量o进行平移后，再进行量化。

图8示出根据本披露实施例的神经网络量化方法的流程图。如图8所示，所述神经网络量化方法中步骤S12，包括：

步骤S124，当所述量化参数包括偏移量时，根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

在一种可能的实现方式中，当量化参数包括偏移量时，量化参数还可以包括点位置、缩放系数中的至少一个。如图7所示，可以根据公式(11)计算得到量化参数包括偏移量时目标数据的点位置s：

其中，ceil为向上取整，s为点位置，n为目标数据对应的数据位宽。

在本实施例中，当量化参数包括偏移量时，可以根据目标数据中的最大值、最小值和目标数据对应的数据位宽，计算得到目标数据对应的点位置。根据目标数据计算得到与之对应的点位置，可以更加符合目标数据自身的特征，使得目标数据的量化精度更高。

图9示出根据本披露实施例的神经网络量化方法的流程图。如图9所示，所述神经网络量化方法中步骤S12，包括：

步骤S125，当所述量化参数包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；

步骤S126，根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

在一种可能的实现方式中，当量化参数包括偏移量时，量化参数还可以包括点位置、缩放系数中的至少一个。如图7所示，可以根据公式(12)计算得到量化参数包括偏移量时目标数据的缩放系数f：

在本实施例中，当量化参数包括偏移量时，可以根据目标数据中的最大值、最小值和目标数据对应的数据位宽，计算得到目标数据对应的缩放系数。根据目标数据计算得到与之对应的缩放系数，可以更加符合目标数据自身的特征，使得目标数据的量化精度更高。

图10示出根据本披露实施例的神经网络量化方法的流程图。如图10所示，所述神经网络量化方法中步骤S12，包括：

步骤S127，根据目标数据中的最大值和最小值，得到所述目标数据的偏移量，所述目标数据为任意一种待量化数据。

在一种可能的实现方式中，如图7所示，可以利用公式(13)计算得到量化参数包括偏移量时目标数据的偏移量o：

在本实施例中，当量化参数包括偏移量时，可以根据目标数据中的最大值、最小值和目标数据对应的数据位宽，计算得到目标数据对应的偏移量。根据目标数据计算得到与之对应的偏移量，可以更加符合目标数据自身的特征，使得目标数据的量化精度更高。

图11示出根据本披露实施例的神经网络量化方法的流程图。如图11所示，所述神经网络量化方法还包括：

步骤S30，根据目标数据和所述目标数据对应的量化数据，确定所述目标数据的量化误差，所述目标数据为任意一种待量化数据。

可以根据目标数据对应的量化数据与目标数据之间的误差，确定目标数据的量化误差。可以利用设定的误差计算方法，例如标准差计算方法、均方根误差计算方法等，计算目标数据的量化误差。

也可以根据量化参数，将目标数据对应的量化数据进行反量化后得到反量化数据，根据反量化数据与目标数据之间的误差，确定目标数据的量化误差。

当量化参数包括点位置时，可以根据公式(14)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

其中：round为四舍五入的取整运算，为目标数据的反量化数据，s为目标数据对应的点位置。

当量化参数包括缩放系数时，可以根据公式(15)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

其中：round为进行四舍五入的取整运算。为目标数据的反量化数据，f为缩放系数。

当量化参数包括偏移量时，可以根据公式(16)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

其中：round为进行四舍五入的取整运算。为目标数据的反量化数据，o为缩放系数。

当量化参数包括点位置和缩放系数时，可以根据公式(17)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

当量化参数包括点位置和偏移量时，可以根据公式(18)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

当量化参数包括缩放系数和偏移量时，可以根据公式(19)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

当量化参数包括点位置、缩放系数和偏移量时，可以根据公式(20)对目标数据的量化数据进行反量化，得到目标数据的反量化数据

可以通过计算量化间隔相关的方法，例如可以通过公式(21)计算得到目标数据与目标数据对应的反量化数据之间的误差diff_bit：

其中，p为目标数据中的各元素的数量，s为目标数据的点位置。A的取值可以根据量化参数进行确定，当量化参数包括点位置s时，A＝2^s；当量化参数包括点位置s和缩放系数f时，A＝2^s×f。

也可以通过计算两个数据的均值之间的差的方法，例如通过公式(22)计算得到目标数据与目标数据对应的反量化数据之间的误差diff_bit：

也可以通过计算两个数据的差之间的均值的方法，例如通过公式(23)计算得到目标数据与目标数据对应的反量化数据之间的误差diff_bit：

步骤S40，根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。

可以根据经验值确定误差阈值，误差阈值可以用于表示对量化误差的期望值。当量化误差大于或小于误差阈值时，可以调整目标数对应的数据位宽，得到目标数据对应的调整位宽。可以将数据位宽调整为更长的位宽或更短的位宽，以提高或降低量化精度。

可以根据能够接受的最大误差确定误差阈值，当量化误差大于误差阈值时，说明量化精度不能达到预期，需要将数据位宽调整为更长的位宽。也可以根据较高的量化精度确定一个较小的误差阈值，当量化误差小于误差阈值时，说明量化精度较高，神经网络的运行效率将受到影响，可以适当的将数据位宽调整为更短的位宽，以适当的降低量化精度，提高神经网络的运行效率。

可以将数据位宽按照固定的位数步长进行调整，也可以根据量化误差与误差阈值之间的差值的不同，按照可变的调整步长调整数据位宽。本披露对此不做限定。

步骤S50，将所述目标数据对应的数据位宽更新为所述调整位宽，根据所述目标数据和所述调整位宽计算得到对应的调整量化参数，以使所述神经网络根据所述调整量化参数进行量化。

确定调整位宽后，可以将目标数据对应的数据位宽更新为调整位宽。例如，目标数据更新前的数据位宽为8位，调整位宽为12位，则更新后目标数据对应的数据位宽为12位。可以根据调整位宽和目标数据计算得到目标数据对应的调整量化参数。可以根据目标数据对应的调整量化参数重新对目标数据进行量化，以得到量化精度更高或更低的量化数据，使得待量化层在量化精度和处理效率之间达到平衡。

在神经网络的推理、训练和微调过程中，各层之间的待量化数据可以认为具有一定的关联性。例如，各层的待量化数据之间的均值之间的差小于设定的均值阈值，且各层的待量化数据之间的最大值之间的差值也小于设定的差值阈值时，可以将待量化层的调整量化参数作为后续的一个或多个层的调整量化参数，用于对待量化层后续的一个或多个层的待量化数据进行量化。也可以在神经网络的训练和微调过程中，将待量化层在当前迭代得到的调整量化参数，用于在后续的迭代中对待量化层进行量化。

在一种可能的实现方式中，所述方法还包括：

在所述待量化层之后的一层或多层采用所述待量化层的量化参数。

神经网络根据调整量化参数进行量化，可以包括只在待量化层利用调整量化参数对待量化数据重新进行量化，并将重新得到的量化数据用于待量化层的运算。也可以包括在待量化层不使用调整量化参数重新对待量化数据进行量化，而在待量化层后续的一个或多个层使用调整量化参数进行量化，和/或后续的迭代中在待量化层使用调整量化参数进行量化。还可以包括在待量化层使用调整量化参数重新进行量化，并将重新得到的量化数据用于待量化层的运算，并且在待量化层后续的一个或多个层使用调整量化参数进行量化，和/或后续的迭代中在待量化层使用调整量化参数进行量化。本披露对此不作限定。

在本实施例中，根据目标数据和目标数据对应的量化数据，确定目标数据的量化误差，目标数据为任意一种待量化数据；所述量化误差和误差阈值，调整目标数据对应的数据位宽，得到目标数据对应的调整位宽；将目标数据对应的数据位宽更新为调整位宽，根据目标数据和调整位宽计算得到对应的调整量化参数，以使神经网络根据调整量化参数进行量化。根据目标数据和量化数据之间的误差调整数据位宽，并根据调整后的数据位宽计算得到调整量化参数。通过设置不同的误差阈值可以得到不同的调整量化参数，达到提高量化精度或提高运行效率等不同的量化需求。根据目标数据和目标数据的量化数据计算得到的调整量化参数，也能够更加符合目标数据自身的数据特征，达到更加符合目标数据自身需求的量化结果，在量化精度和处理效率之间达到更好的平衡。

图12示出根据本披露实施例的神经网络量化方法的流程图。如图12所示，所述神经网络量化方法中步骤S40，包括：

步骤S41，当所述量化误差大于所述第一误差阈值时，增加所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。

可以根据能够接受的最大的量化误差，确定第一误差阈值。可以将量化误差与第一误差阈值进行比较。当量化误差大于第一误差阈值时，可以认为量化误差已经不可接受。需要提高量化精度，可以通过增加目标数据对应的数据位宽的方式，提高目标数据的量化精度。

可以将目标数据对应的数据位宽按照固定的调整步长增加，得到调整位宽。固定的调整步长可以为N位，N为正整数。每次调整数据位宽可以增加N位。每次增加后的数据位宽＝原数据位宽+N位。

可以将目标数据对应的数据位宽按照可变的调整步长增加，得到调整位宽。例如，当量化误差与误差阈值之间的差值大于第一阈值时，可以按照调整步长M1调整数据位宽，当量化误差与误差阈值之间的差值小于第一阈值时，可以按照调整步长M2调整数据位宽，其中，第一阈值大于第二阈值，M1大于M2。可以根据需求确定各可变的调整步长。本披露对数据位宽的调整步长及调整步长是否可变不做限定。

可以将目标数据按照调整位宽计算得到调整后的量化参数。利用调整后的量化参数对目标数据进行重新量化后得到的量化数据，比利用调整前的量化参数量化得到的量化数据的量化精度更高。

图13示出根据本披露实施例的神经网络量化方法的流程图。如图13所示，所述神经网络量化方法还包括：

步骤S42，根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

步骤S43，根据所述调整后的量化误差和所述第一误差阈值继续增加所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差小于或等于所述第一误差阈值。

根据量化误差增加目标数据对应的数据位宽时，调整一次位宽后得到调整位宽，根据调整位宽计算得到调整后的量化参数，根据调整后的量化参数量化目标数据得到调整后的量化数据，再根据调整后的量化数据与目标数据计算得到目标数据调整后的量化误差，调整后的量化误差可能依然大于第一误差阈值，即根据调整一次的数据位宽可能不能满足调整目的。当调整后的量化误差依然大于第一误差阈值时，可以继续对调整后的数据位宽进行调整，即多次增加目标数据对应的数据位宽，直至根据最终得到的调整位宽和目标数据得到的调整后的量化误差小于第一误差阈值。

多次增加的调整步长可以是固定的调整步长，也可以是可变的调整步长。例如，最终的数据位宽＝原数据位宽+A*N位，其中N为每次增加的固定的调整步长，A为数据位宽的增加次数。最终的数据位宽＝原数据位宽+M1+M2+…+Mm,其中，M1、M2…Mm为每次增加的可变的调整步长。

在本实施例中，当量化误差大于第一误差阈值时，增加所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。可以通过设置第一误差阈值和调整步长增加数据位宽，以使调整后的数据位宽能够满足量化的需求。当一次调整不能满足调整需求时，还可以对数据位宽进行多次调整。第一误差阈值和调整步长的设置，使得量化参数可以按照量化需求进行灵活调整，满足不同的量化需求，使得量化精度可根据自身数据特征进行自适应调整。

图14示出根据本披露实施例的神经网络量化方法的流程图。如图14所示，所述神经网络量化方法中步骤S40，包括：

步骤S44，当所述量化误差小于所述第二误差阈值时，减少所述目标数据对应的数据位宽，所述第二误差阈值小于所述第一误差阈值。

可以根据能够接受的量化误差和期望的神经网络的运行效率，确定第二误差阈值。可以将量化误差与第二误差阈值进行比较。当量化误差小于第二误差阈值时，可以认为量化误差超出预期，但运行效率过低已经不可接受。可以降低量化精度以提高神经网络的运行效率，可以通过减少目标数据对应的数据位宽的方式，降低目标数据的量化精度。

可以将目标数据对应的数据位宽按照固定的调整步长减少，得到调整位宽。固定的调整步长可以为N位，N为正整数。每次调整数据位宽可以减少N位。增加后的数据位宽＝原数据位宽-N位。

可以将目标数据对应的数据位宽按照可变的调整步长减少，得到调整位宽。例如，当量化误差与误差阈值之间的差值大于第一阈值时，可以按照调整步长M1调整数据位宽，当量化误差与误差阈值之间的差值小于第一阈值时，可以按照调整步长M2调整数据位宽，其中，第一阈值大于第二阈值，M1大于M2。可以根据需求确定各可变的调整步长。本披露对数据位宽的调整步长及调整步长是否可变不做限定。

可以将目标数据按照调整位宽计算得到调整后的量化参数，利用调整后的量化参数对目标数据进行重新量化后得到的量化数据，比利用调整前的量化参数量化得到的量化数据的量化精度更低。

图15示出根据本披露实施例的神经网络量化方法的流程图。如图15所示，所述神经网络量化方法还包括：

步骤S45，根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

步骤S46，根据所述调整后的量化误差和所述第二误差阈值继续减少所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差大于或等于所述第二误差阈值。

根据量化误差增加目标数据对应的数据位宽时，调整一次位宽后得到调整位宽，根据调整位宽计算得到调整后的量化参数，根据调整后的量化参数量化目标数据得到调整后的量化数据，再根据调整后的量化数据与目标数据计算得到目标数据调整后的量化误差，调整后的量化误差可能依然小于第二误差阈值，即根据调整一次的数据位宽可能不能满足调整目的。当调整后的量化误差依然小于第二误差阈值时，可以继续对调整后的数据位宽进行调整，即多次减少目标数据对应的数据位宽，直至根据最终得到的调整位宽和目标数据得到的调整后的量化误差大于第二误差阈值。

多次减少的调整步长可以是固定的调整步长，也可以是可变的调整步长。例如，最终的数据位宽＝原数据位宽-A*N位，其中N为每次增加的固定的调整步长，A为数据位宽的增加次数。最终的数据位宽＝原数据位宽-M1-M2-…-Mm,其中，M1、M2…Mm为每次减少的可变的调整步长。

在本实施例中，当量化误差小于第二误差阈值时，减少所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。可以通过设置第二误差阈值和调整步长减少数据位宽，以使调整后的数据位宽能够满足量化的需求。当一次调整不能满足调整需求时，还可以对数据位宽进行多次调整。第二误差阈值和调整步长的设置，使得量化参数可以按照量化需求进行灵活的自适应调整，满足不同的量化需求，使得量化精度可调，在量化精度和神经网络的运行效率之间达到平衡。

在一种可能的实现方式中，所述方法还包括：

当所述量化误差大于第一误差阈值时，增加所述目标数据对应的数据位宽，以及当所述量化误差小于第二误差阈值时，减少所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。

也可以同时设置两个误差阈值，其中，第一误差阈值用于表示量化精度过低，可以增加数据位宽的位数，第二误差阈值用于表示量化精度过高，可以减少数据位宽的位数。第一误差阈值大于第二误差阈值，可以将目标数据的量化误差同时与两个误差阈值进行比较，当量化误差大于第一误差阈值时，增加数据位宽的位数，当量化误差小于第二误差阈值时，减少数据位宽的位数。当量化误差位于第一误差阈值和第二误差阈值之间时，数据位宽可以保持不变。

在本实施例中，通过将量化误差与第一误差阈值和第二误差阈值同时进行比较，可以根据比较结果增加或减少数据位宽，可以利用第一误差阈值和第二误差阈值更加灵活的调整数据位宽。使得数据位宽的调整结果更加符合量化需求。

图16示出根据本披露实施例的神经网络量化方法的流程图。如图16所示，在所述神经网络运算的微调阶段和/或训练阶段，所述方法还包括：

步骤S60，获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述历史迭代为所述当前迭代之前的迭代。

在神经网络运算的微调阶段和/或训练阶段包括多个迭代。神经网络中的各待量化层，在进行一次正向运算和一次反向运算，并对待量化层的权值进行更新后，完成一次迭代。在多次迭代中，待量化层中的目标数据和/或目标数据对应的量化数据的数据变动幅度，可以用于衡量在不同迭代中的目标数据和/或量化数据是否可采用相同的量化参数进行量化。若当前迭代以及历史迭代中目标数据的数据变动幅度较小，例如小于设定的幅度变动阈值时，可以在数据变动幅度较小的多个迭代中采用相同的量化参数。

可以通过提取预存的量化参数的方式，确定与目标数据对应的量化参数。在不同的迭代中对目标数据进行量化时，需要在各迭代提取与目标数据对应的量化参数。若多个迭代的目标数据和/或目标数据对应的量化数据的数据变动幅度较小，可将在数据变动幅度较小的多个迭代中采用的相同的量化参数进行暂存，各迭代在进行量化时可以利用暂存的量化参数进行量化运算，不用在每次迭代提取量化参数。

也可以根据目标数据和数据位宽计算得到量化参数。在不同的迭代中对目标数据进行量化时，需要在各迭代分别计算量化参数。若多个迭代的目标数据和/或目标数据对应的量化数据的数据变动幅度较小，可在数据变动幅度较小的多个迭代中采用的相同的量化参数，则各迭代均可以直接使用其中第一个迭代计算得到的量化参数，而不是每次迭代计算量化参数。

可以理解的是，当目标数据为权值时，各迭代之间的权值在不断更新，若多个迭代的权值的数据变动幅度较小，或多个迭代的权值对应的量化数据的数据变动幅度较小，可以在多个迭代中利用相同的量化参数对权值进行量化。

步骤S70，根据所述目标数据的数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数，所述目标迭代间隔包括至少一次迭代，所述目标数据为任意一种待量化数据。

可以根据目标数据的数据变动幅度确定目标迭代间隔，目标迭代间隔包括至少一次迭代，可以在目标迭代间隔内的各迭代使用相同的量化参数，即在目标迭代间隔内的各迭代不再更新目标数据的量化参数。神经网络根据目标迭代间隔更新目标数据的量化参数，包括在目标迭代间隔内的迭代，不获取预设的量化参数或不计算量化参数，即在目标迭代间隔内的迭代不更新量化参数。而在目标迭代间隔外的迭代，再获取预设的量化参数或计算量化参数，即在目标迭代间隔外的迭代更新量化参数。

可以理解的是，多个迭代之间的目标数据或目标数据的量化数据的数据变动幅度越小，确定出的目标迭代间隔包括的迭代次数越多。可以根据计算得到的数据变动幅度，查找预设的数据变动幅度与迭代间隔的对应关系，确定与计算得到的数据变动幅度对应的目标迭代间隔。可以根据需求预设数据变动幅度与迭代间隔的对应关系。也可以根据计算得到的数据变动幅度，利用设定的计算方法计算得到目标迭代间隔。本披露不限定数据变动幅度的计算方式，以及目标迭代间隔的获取方式。

在本实施例中，在神经网络运算的微调阶段和/或训练阶段，获取当前迭代以及历史迭代中目标数据的数据变动幅度，根据所述目标数据的数据变动幅度，确定目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。可以根据多个迭代中目标数据或目标数据对应的量化数据的数据变动幅度，确定目标迭代间隔。神经网络可以根据目标迭代间隔确定是否更新量化参数。由于目标迭代间隔所包括的多个迭代的数据变动幅度较小，目标迭代间隔内的迭代不更新量化参数也可以保证量化精度。而目标迭代间隔内的多个迭代不更新量化参数，可以减少量化参数的提取次数或计算次数，从而提高神经网络的运算效率。

图17示出根据本披露实施例的神经网络量化方法的流程图。如图17所示，所述神经网络量化方法还包括：

步骤S80，根据所述目标数据在所述当前迭代的数据位宽，确定所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，以使所述神经网络根据所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，确定量化参数。

如本披露上述实施例所述，目标数据的量化参数可以预设，也可以根据目标数据对应的数据位宽计算得到。而不同待量化层中目标数据对应的数据位宽，或相同待量化层中目标数据在不同迭代中对应的数据位宽，可以根据本披露上述实施例中的方式进行自适应调整。

当目标数据的数据位宽不可自适应调整，为预设的数据位宽时，可以根据目标数据在当前迭代的预设的数据位宽，确定目标数据在目标迭代间隔内的迭代对应的数据位宽。在目标迭代间隔内的各迭代可不使用自身的预设值。

当目标数据的数据位宽可自适应调整时，可以根据目标数据在当前迭代对应的数据位宽，确定目标数据在目标迭代间隔内的迭代对应的数据位宽。在数据位宽可自适应调整时，数据位宽可进行一次调整或多次调整。可以将目标数据在当前迭代进行自适应调整后的数据位宽，作为目标迭代间隔内的各迭代对应的数据位宽，在目标迭代间隔内的各迭代不再对数据位宽进行自适应调整(更新)。目标数据在当前迭代可以使用自适应调整后的数据位宽，也可以使用自适应调整前的数据位宽，本披露对此不作限定。

在目标迭代间隔以外的其他迭代，由于目标数据的数据变动幅度不满足设定条件，可以根据本披露上述的方法对数据位宽进行自适应调整，得到更加符合当前迭代的目标数据的数据位宽，也可使用本披露中的目标迭代间隔的计算方法，计算得到新的目标迭代间隔并使用，从而在保证目标迭代间隔以外的迭代的量化精度的同时，提高神经网络的运行效率。

在目标迭代间隔内的各迭代的数据位宽相同，各迭代可以根据相同的数据位宽各自计算得到对应的量化参数。量化参数可以包括点位置、缩放系数和偏移量中的至少一种。可以在目标迭代间隔内的各迭代，根据相同的数据位宽分别计算得到量化参数。量化参数包括点位置、缩放系数和偏移量时，在目标迭代间隔内的各迭代，可利用相同的数据位宽，分别计算各自对应的点位置、缩放系数和偏移量。

在根据当前迭代的数据位宽，确定目标迭代间隔内各迭代的数据位宽的同时，可以根据当前迭代的量化参数，确定目标迭代间隔内各迭代的对应的量化参数。目标迭代间隔内各迭代的量化参数，也不再重新根据相同的数据位宽计算得到，可以进一步提高神经网络的运算效率。可以根据当前迭代的全部量化参数或部分量化参数，确定目标迭代间隔内各迭代的对应的量化参数。当根据当前迭代的部分量化参数，确定目标迭代间隔内各迭代的对应的量化参数时，剩余部分的量化参数，在目标迭代间隔内各迭代仍需计算。

例如，量化参数包括点位置、缩放系数和偏移量。可以根据当前迭代的数据位宽和点位置，确定目标迭代间隔内各迭代的数据位宽和点位置。则目标迭代间隔内各迭代的缩放系数和偏移量需要根据相同的数据位宽计算得到。也可以根据当前迭代的数据位宽、点位置、缩放系数和偏移量，确定目标迭代间隔内各迭代的数据位宽、点位置、缩放系数和偏移量，则目标迭代间隔内各迭代的各量化参数均不需要计算得到。

在本实施例中，根据目标数据在当前迭代对应的数据位宽，确定目标数据在目标迭代间隔内的迭代对应的数据位宽，以使神经网络根据目标数据在目标迭代间隔内的迭代对应的数据位宽，确定量化参数。在目标迭代间隔内的各迭代的数据位宽，根据当前迭代的数据位宽确定，由于目标迭代间隔内各迭代的目标数据的数据变化幅度满足设定的条件，利用相同的数据位宽计算得到的量化参数，可以保证目标迭代间隔内的各迭代的量化精度。目标迭代间隔内各迭代使用相同的数据位宽，也可以提高神经网络的运算效率。在对神经网络进行量化后运算结果的准确率和神经网络的运算效率之间，达到平衡。

图18示出根据本披露实施例的神经网络量化方法的流程图。如图18所示，所述神经网络量化方法还包括：

步骤S90，根据所述目标数据在所述当前迭代对应的点位置，确定所述目标数据在所述目标迭代间隔内的迭代对应的点位置。

在量化参数中，相对于缩放系数和偏移量，不同的点位置对相同目标数据的量化结果产生的影响较大。可以根据目标数据在当前迭代对应的点位置，确定目标迭代间隔内的迭代对应的点位置。当数据位宽不可自适应调整时，可以将目标数据在当前迭代预设的点位置，作为目标数据在目标迭代间隔内各迭代对应的点位置，也可以将目标数据在当前迭代根据预设的数据位宽计算得到的点位置，作为目标数据在目标迭代间隔内各迭代对应的点位置。当数据位宽可自适应调整时，可以将目标数据在当前迭代调整后的点位置，作为目标数据在目标迭代间隔内各迭代对应的点位置。

根据所述目标数据在所述当前迭代对应的点位置，确定所述目标数据在所述目标迭代间隔内的迭代对应的点位置的同时，也可以根据目标数据在当前迭代对应的缩放系数，确定所述目标数据在所述目标迭代间隔内的迭代对应的缩放系数，和/或根据目标数据在当前迭代对应的偏移量，确定所述目标数据在所述目标迭代间隔内的迭代对应的偏移量。

根据所述目标数据在所述当前迭代对应的点位置，确定所述目标数据在所述目标迭代间隔内的迭代对应的点位置的同时，还可以根据目标数据在当前迭代对应的数据位宽，确定所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，其中，目标数据在当前迭代对应的数据位宽，可以是当前迭代预设的数据位宽或自适应调整后的数据位宽。

在本实施例中，根据目标数据在当前迭代对应的点位置，确定目标数据在目标迭代间隔内的迭代对应的点位置。在目标迭代间隔内的各迭代的点位置，根据当前迭代的点位置确定，由于目标迭代间隔内各迭代的目标数据的数据变化幅度满足设定的条件，利用相同的点位置，可以保证目标迭代间隔内的各迭代的量化精度。目标迭代间隔内各迭代使用相同的点位置，也可以提高神经网络的运算效率。在对神经网络进行量化后运算结果的准确率和神经网络的运算效率之间，达到平衡。

图19示出根据本披露实施例的神经网络量化方法的流程图。如图19所示，所述神经网络量化方法中步骤S60，包括：

步骤S61，根据目标数据在当前迭代的点位置，和根据历史迭代间隔确定的与所述当前迭代对应的历史迭代的点位置，计算目标数据对应各迭代间隔的点位置的滑动平均值；

步骤S62，根据所述目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度；

所述步骤S70，包括：

步骤S71，根据所述第一数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

在一种可能的实现方式中，根据历史迭代间隔确定的与所述当前迭代对应的历史迭代，可以为计算目标迭代间隔的历史迭代。当前迭代与对应的目标迭代间隔之间的对应关系可以包括：

可以从当前迭代开始计数目标迭代间隔，并在当前迭代对应的目标迭代间隔结束后的下一个迭代开始重新计算目标迭代间隔。例如，当前迭代为第100代，目标迭代间隔为3，目标迭代间隔内的迭代包括：第100代、第101代和第102代，可以在第103代计算与第103代对应的目标迭代间隔，并以103代为新计算得到当目标迭代间隔内的第一个迭代。此时，当前迭代为103代时，根据历史迭代间隔确定的与所述当前迭代对应的历史迭代为100代。

可以从当前迭代的下一个迭代开始计数目标迭代间隔，并在目标迭代间隔内的最后一个迭代开始重新计算目标迭代间隔。例如，当前迭代为第100代，目标迭代间隔为3，目标迭代间隔内的迭代包括：第101代、第102代和第103代，可以在第103代计算与第103代对应的目标迭代间隔，并以104代为新计算得到当目标迭代间隔内的第一个迭代。此时，当前迭代为103代时，根据历史迭代间隔确定的与所述当前迭代对应的历史迭代为100代。

可以从当前迭代的下一个迭代开始计数目标迭代间隔，并在目标迭代间隔结束后的下一个迭代开始重新计算目标迭代间隔。例如，当前迭代为第100代，目标迭代间隔为3，目标迭代间隔内的迭代包括：第101代、第102代和第103代，可以在第104代计算与第104代对应的目标迭代间隔，并以105代为新计算得到当目标迭代间隔内的第一个迭代。此时，当前迭代为104代时，根据历史迭代间隔确定的与所述当前迭代对应的历史迭代为100代。

可以根据需求确定当前迭代以及目标迭代间隔之间的其他的对应关系，例如可以从当前迭代之后的第N个迭代开始计数目标迭代间隔，N大于1，本披露对此不作限定。

可以理解的是，计算得到的目标数据对应各迭代间隔的点位置的滑动平均值，包括目标数据在当前迭代的点位置的第一滑动平均值，和目标数据在上一迭代间隔对应迭代的点位置的第二滑动平均值。可以利用公式(24)计算当前迭代对应点位置的第一滑动平均值m^(t)：

m^(t)←α×s^(t)+(1-α)×m^(t-1)公式(24)

其中，t为当前迭代，t-1为根据上一迭代间隔确定的历史迭代，m^(t-1)为根据上一迭代间隔确定的历史迭代的第二滑动平均值，s^(t)为当前迭代的点位置，α为第一参数。第一参数可以为超参数。

在本实施例中，根据目标数据在当前迭代的点位置，和根据历史迭代间隔确定的与所述当前迭代对应的历史迭代的点位置，计算目标数据对应各迭代间隔的点位置的滑动平均值；根据目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度。根据第一数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。由于第一数据变动幅度可以用于衡量点位置的变化趋势，使得目标迭代间隔可以跟随目标数据点位置的变化趋势而变化，也使得计算得到的各目标迭代间隔的大小可以根据目标数据点位置的变化趋势而变化。由于量化参数根据目标迭代间隔确定，也就使得根据量化参数进行量化得到的量化数据，能够更加符合目标数据的点位置的变动趋势，在保证量化精度的同时，提高神经网络的运行效率。

图20示出根据本披露实施例的神经网络量化方法的流程图。如图20所示，所示神经网络量化方法中步骤S62包括：

步骤S621，计算所述第一滑动平均值和所述第二滑动平均值的差值；

步骤S622，将所述差值的绝对值确定为第一数据变动幅度。

可以利用公式(25)计算第一数据变动幅度diff_{update 1}：

diff_{update 1}＝|m^(t)-m^(t-1)|＝α|s^(t)-m^(t-1)|公式(25)

可以根据第一数据变动幅度，确定目标数据对应的目标迭代间隔，以使神经网络根据目标迭代间隔更新所述目标数据的量化参数。可以根据公式(26)计算得到目标迭代间隔I：

其中，β为第二参数，γ为第三参数。第二参数和第三参数可以为超参数。

可以理解的是，第一数据变动幅度可以用于衡量点位置的变化趋势，第一数据变动幅度越大，说明量化数据的数值范围变化剧烈，在更新量化参数时需要间隔更短的目标迭代间隔I。

在本实施例中，计算所述第一滑动平均值和所述第二滑动平均值的差值；将差值的绝对值确定为第一数据变动幅度。根据滑动平均值之间的差值可以得到精确的第一数据变动幅度。

图21示出根据本披露实施例的神经网络量化方法的流程图。如图21所示，所述神经网络量化方法还包括：

步骤S63，根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度；

所述步骤S70，包括：

步骤S72，根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

可以根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度。也可以根据在当前迭代所述目标数据和所述目标数据对应的反量化数据，得到第二数据变动幅度。

同样的，可以根据公式(23)计算得到在当前迭代中，所述目标数据和所述目标数据对应的反量化数据之间的第二数据变动幅度diff_bit。也可以利用其它误差的计算方法，计算目标数据和反量化数据之间的第二数据变动幅度diff_bit。本披露对此不作限定。

其中，z_i为目标数据，z_i ⁽ⁿ⁾为目标数据对应的反量化数据。可以理解的是，第二数据变动幅度可以用于衡量目标数据对应的数据位宽的变化趋势，第二数据变动幅度越大，目标数据越有可能需要更新对应的数据位宽，需要间隔更短的迭代进行更新，则第二数据变动幅度越大，需要目标迭代间隔更小。

在本实施例中，根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度。根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。第二数据变动幅度可以用于衡量数据位宽的变动需求，则根据第一数据变动幅度和第二数据变动幅度计算得到的目标迭代间隔，可以同时跟踪点位置和数据位宽的变动，目标迭代间隔也可以更加符合目标数据自身的数据量化需求。

图22示出根据本披露实施例的神经网络量化方法的流程图。如图22所示，所述神经网络量化方法中步骤S63，包括：

步骤S631，计算在当前迭代所述目标数据和所述目标数据对应的量化数据之间的误差；

步骤S632，将所述误差的平方确定为所述第二数据变动幅度。

可以利用公式(27)计算得到第二数据变动幅度diff_{update 2}：

diff_{update 2}＝δ*diff_bit ²公式(27)

其中，δ为第四参数，第四参数可以为超参数。

可以理解的是，利用不同的数据位宽可以得到不同的量化参数，进而得到不同的量化数据，产生不同的第二数据变动幅度。第二数据变动幅度可以用于衡量数据位宽的变化趋势，第二数据变动幅度越大，说明需要更短的目标迭代间隔来更加频繁的更新数据位宽，即目标迭代间隔需要更小。

图23示出根据本披露实施例的神经网络量化方法的流程图。如图23所示，所述步骤S72，包括：

步骤S721，根据所述第一数据变动幅度和所述第二数据变动幅度中的最大值，确定所述目标数据对应的目标迭代间隔。

可以根据公式(28)计算得到目标迭代间隔：

可以理解的是，利用第一数据变动幅度和第二数据变动幅度得到的目标迭代间隔，可以同时衡量数据位宽和点位置的变化趋势，当两者中的其一的变化趋势较大时，便可以使得目标迭代间隔产生相应的变化。目标迭代间隔可以同时追踪数据位宽和点位置的变化并做出相应的调整。使得根据目标迭代间隔更新的量化参数能够更加符合目标数据的变动趋势，最终使得根据量化参数得到的量化数据能够更加符合量化需求。

图24示出根据本披露实施例的神经网络量化方法的流程图。如图24所示，所述神经网络量化方法中步骤S60，包括：

步骤S64，在当前迭代位于更新周期以外时，获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述更新周期包括至少一个迭代。

在神经网络运算的训练过程和/或微调过程中，在训练开始或微调开始的多个迭代中，目标数据的变化幅度较大。若在训练开始或微调开始的多个迭代中计算目标迭代间隔，则计算得到的目标迭代间隔可能会失去其使用的意义。可以根据预设更新周期，在更新周期以内的各迭代，不计算目标迭代间隔，也不适用目标迭代间隔使得多个迭代使用相同的数据位宽或点位置。

当迭代进行至更新周期以外时，即当前迭代位于更新周期以外时，获取当前迭代以及历史迭代中目标数据的数据变动幅度，并根据所述目标数据的数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。例如，预设更新周期为100代，则自第1代开始至第100代的迭代中，不计算目标迭代间隔。当迭代进行至101代，即当前迭代为101代时，当前迭代位于更新周期以外，此时，可以根据第101代以及第1代至第100代的迭代中目标数据的数据变动幅度，确定第101代的目标数据对应的目标迭代间隔，并在第101代或与第101间隔预设代数的迭代中，使用计算得到的目标迭代间隔。

可以自预设的代数开始计数更新周期，例如可以自第一代开始计数更新周期中多个迭代，也可以自第N代开始计数更新周期中的多个迭代，本披露对此不作限定。

在本实施例中，当迭代进行至更新周期以外时计算并使用目标迭代间隔。可以避免在神经网络运算的训练过程或微调过程的初期，由于目标数据的变动幅度较大引起的目标迭代间隔使用意义不大的问题，可以在使用目标迭代间隔的情况下，进一步提高神经网络的运行效率。

图25示出根据本披露实施例的神经网络量化方法的流程图。如图25所示，所述神经网络量化方法还包括：

步骤S100，在当前迭代位于预设周期内时，根据当前迭代、在所述预设周期的下一周期中与所述当前迭代对应的迭代以及当前迭代对应的迭代间隔，确定周期间隔；

步骤S110，根据所述目标数据在当前迭代对应的数据位宽，确定在所述周期间隔内的迭代中所述目标数据的数据位宽；或

根据所述目标数据在当前迭代对应的点位置，确定在所述周期间隔内的迭代中所述目标数据的点位置。

在神经网络运算的训练过程或微调过程中，可以包括多个周期。各周期可以包括多个迭代。用于神经网络运算的数据被完整的运算一遍为一个周期。在训练过程中，随着迭代的进行，神经网络的权值变化趋于稳定，当训练稳定后，神经元、权值、偏置和梯度等待量化数据均趋于稳定。目标数据趋于稳定后，目标数据的数据位宽和量化参数也趋于稳定。同理，在微调过程中，微调稳定后，目标数据的数据位宽和量化参数也趋于稳定。

因此，可以根据训练稳定或微调稳定的周期确定预设周期。可以将训练稳定或微调稳定所在周期以后的周期，确定为预设周期。例如训练稳定的周期为第M个周期，则可以将第M个周期以后的周期作为预设周期。在预设周期内，可以每间隔一个周期计算一个目标迭代间隔，并根据计算得到的目标迭代间隔调整一次数据位宽或量化参数，以减少数据位宽或量化参数的更新次数，提高神经网络的运行效率。

例如，预设周期为第M个周期以后的周期。在第M+1个周期中，根据第M个周期中的第P个迭代计算得到的目标迭代间隔，截止至第M+1个周期中的第Q个迭代。根据第M+1个周期中的第Q_m+1个迭代计算得到与之对应的目标迭代间隔I_m+1。在第M+2个周期中，与第M+1个周期中的第Q_m+1个迭代对应的迭代为第Q_m+2个迭代。在自第M+1个周期中的第Q_m+1个迭代开始，直至第M+2个周期中第Q_m+2+I_m+1个迭代为止，为周期间隔。在周期间隔内的各迭代，均采用第M+1个周期中的第Q_m+1个迭代确定的数据位宽或点位置等量化参数。

在本实施例中，可以设置周期间隔，在神经网络运算的训练或微调达到稳定后，根据周期间隔，每周期更新一次数据位宽或点位置等量化参数。周期间隔可以在训练稳定或微调稳定后，减少数据位宽或点位置的更新次数，在保证量化精度的同时，提高神经网络的运行效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本披露并不受所描述的动作顺序的限制，因为依据本披露，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本披露所必须的。

进一步需要说明的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图26示出根据本披露实施例的神经网络量化装置的示意图。如图26所示，本披露提供一种神经网络量化装置，所述装置用于量化所述神经网络中的任意一层待量化层，所述装置包括：

量化参数确定模块10，用于确定与所述待量化层中每种待量化数据对应的量化参数，所述待量化数据包括神经元、权值、偏置、梯度中的至少一种；

量化模块20，用于将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算。

在一种可能的实现方式中，所述量化参数包括点位置、缩放系数和偏移量中的至少一种，其中，

所述点位置为量化后小数点的位置，

所述缩放系数为量化后数据的最大值与待量化数据的最大绝对值之间的比值，

所述偏移量为待量化数据的中间值。

图27示出根据本披露实施例的神经网络量化装置的示意图。如图27所示，所述量化参数确定模块10，包括：

第一量化参数确定子模块11，用于通过查找待量化数据与量化参数对应关系，确定与所述待量化层中每种待量化数据对应的量化参数。

在一种可能的实现方式中，所述量化参数确定模块10，包括：

第二量化参数确定子模块12，用于根据每种待量化数据和对应的数据位宽计算得到对应的量化参数。

在一种可能的实现方式中，所述第二量化参数确定子模块12，包括：

第一点位置计算单元121，用于当所述量化参数不包括偏移量时，根据目标数据中的绝对值最大值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

第一缩放系数计算单元122，用于当所述量化参数不包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；根据目标数据中的绝对值最大值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

第二点位置计算单元123，用于当所述量化参数包括偏移量时，根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

第二缩放系数计算单元124，用于当所述量化参数包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

偏移量计算单元125，用于根据目标数据中的最大值和最小值，得到所述目标数据的偏移量，所述目标数据为任意一种待量化数据。

图28示出根据本披露实施例的神经网络量化装置的示意图。如图28所示，在一种可能的实现方式中，所述装置还包括：

量化误差确定模块30，用于根据目标数据和所述目标数据对应的量化数据，确定所述目标数据的量化误差，所述目标数据为任意一种待量化数据；

调整位宽确定模块40，用于根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽；

调整量化参数确定模块50，用于将所述目标数据对应的数据位宽更新为所述调整位宽，根据所述目标数据和所述调整位宽计算得到对应的调整量化参数，以使所述神经网络根据所述调整量化参数进行量化。

在一种可能的实现方式中，所述调整位宽确定模块40，包括：

第一调整位宽确定子模块41，用于当所述量化误差大于第一误差阈值时，增加所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。

在一种可能的实现方式中，所述调整位宽确定模块40，还包括：

第一调整量化误差确定子模块42，用于根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

第一调整位宽循环确定子模块43，用于根据所述调整后的量化误差和所述第一误差阈值继续增加所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差小于或等于所述第一误差阈值。

第二调整位宽确定子模块44，用于当所述量化误差小于第二误差阈值时，减少所述目标数据对应的数据位宽，所述第二误差阈值小于所述第一误差阈值。

第二调整量化误差确定子模块45，用于根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

第二调整位宽循环确定子模块46，用于根据所述调整后的量化误差和所述第二误差阈值继续减少所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差大于或等于所述第二误差阈值。

图29示出根据本披露实施例的神经网络量化装置的示意图。如图29所示，在一种可能的实现方式中，在所述神经网络运算的微调阶段和/或训练阶段，所述装置还包括：

数据变动幅度确定模块60，用于获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述历史迭代为所述当前迭代之前的迭代；

目标迭代间隔确定模块70，用于根据所述目标数据的数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数，所述目标迭代间隔包括至少一次迭代，所述目标数据为任意一种待量化数据。

在一种可能的实现方式中，所述装置还包括：

第一目标迭代间隔应用模块80，用于根据所述目标数据在所述当前迭代的数据位宽，确定所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，以使所述神经网络根据所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，确定量化参数。

在一种可能的实现方式中，所述装置还包括：

第二目标迭代间隔应用模块90，用于根据所述目标数据在所述当前迭代对应的点位置，确定所述目标数据在所述目标迭代间隔内的迭代对应的点位置。

在一种可能的实现方式中，所述数据变动幅度确定模块60，包括：

滑动平均值计算子模块61，用于根据目标数据在当前迭代的点位置，和根据历史迭代间隔确定的与所述当前迭代对应的历史迭代的点位置，计算目标数据对应各迭代间隔的点位置的滑动平均值；

第一数据变动幅度确定子模块62，用于根据所述目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度；

所述目标迭代间隔确定模块70，包括：

第一目标迭代间隔确定子模块71，用于根据所述第一数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

在一种可能的实现方式中，所述第一数据变动幅度确定子模块62，包括：

第一数据变动幅度确定单元621，用于计算所述第一滑动平均值和所述第二滑动平均值的差值；将所述差值的绝对值确定为第一数据变动幅度。

在一种可能的实现方式中，所述数据变动幅度确定模块60，还包括：

第二数据变动幅度确定子模块63，用于根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度；

所述目标迭代间隔确定模块70，包括：

第二目标迭代间隔确定子模块72，用于根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

在一种可能的实现方式中，所述第二数据变动幅度确定模块63，包括：

第二数据变动幅度确定单元631，用于计算在当前迭代所述目标数据和所述目标数据对应的量化数据之间的误差；将所述误差的平方确定为所述第二数据变动幅度。

在一种可能的实现方式中，所述第二目标迭代间隔确定子模块72，用于根据所述第一数据变动幅度和所述第二数据变动幅度中的最大值，确定所述目标数据对应的目标迭代间隔。

第三数据变动幅度确定子模块64，用于在当前迭代位于更新周期以外时，获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述更新周期包括至少一个迭代。

图30示出根据本披露实施例的神经网络量化装置的示意图。如图30所示，在一种可能的实现方式中，所述装置还包括：

周期间隔确定模块100，用于在当前迭代位于预设周期内时，根据当前迭代、在所述预设周期的下一周期中与所述当前迭代对应的迭代以及当前迭代对应的迭代间隔，确定周期间隔；

第一周期间隔应用模块110，用于根据所述目标数据在当前迭代对应的数据位宽，确定在所述周期间隔内的迭代中所述目标数据的数据位宽；或

第二周期间隔应用模块120，用于根据所述目标数据在当前迭代对应的点位置，确定在所述周期间隔内的迭代中所述目标数据的点位置。

在一种可能的实现方式中，所述装置还包括：

量化参数沿用模块130，用于在所述待量化层之后的一层或多层采用所述待量化层的量化参数。

应该理解，上述的装置实施例仅是示意性的，本披露的装置还可通过其它的方式实现。例如，上述实施例中所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

所述作为分离部件说明的单元或模块可以是物理上分开的，也可以不是物理上分开的。作为单元或模块说明的部件可以是物理单元，也可以不是物理单元，即可以位于一个装置中，或者也可以分布到多个装置上。本披露中实施例的方案可以根据实际的需要选择其中的部分或者全部单元来实现。

另外，若无特别说明，在本披露各个实施例中的各功能单元/模块可以集成在一个单元/模块中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元/模块如果以硬件的形式实现时，该硬件可以是数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于晶体管，忆阻器等等。若无特别说明，所述人工智能处理器可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明，所述存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic RandomAccess Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。

所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本披露的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本披露各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在一种可能的实现方式中，本披露还公开了一种人工智能芯片，其包括了上述数据同步装置。

在一种可能的实现方式中，本披露还公开了一种板卡，其包括存储器件、接口装置和控制器件以及上述人工智能芯片；其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；所述存储器件，用于存储数据；所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；所述控制器件，用于对所述人工智能芯片的状态进行监控。

图31示出根据本披露实施例的板卡的结构框图，参阅图31，上述板卡除了包括上述芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392；

所述存储器件390与所述人工智能芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述人工智能芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述人工智能芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述人工智能芯片电连接。所述接口装置用于实现所述人工智能芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。优选的，当采用PCIE 3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本披露并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述人工智能芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述人工智能芯片电连接。所述控制器件用于对所述人工智能芯片的状态进行监控。具体的，所述人工智能芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述人工智能芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述人工智能芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述人工智能芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一种可能的实现方式中，公开了一种电子设备，其包括了上述人工智能芯片。电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

依据以下条款可更好地理解前述内容：

A1、一种神经网络量化方法，对于所述神经网络中的任意一层待量化层，所述方法包括：

A2、根据条款A1所述的方法，所述量化参数包括点位置、缩放系数和偏移量中的至少一种，其中，

所述点位置为量化后小数点的位置，

所述偏移量为待量化数据的中间值。

A3、根据条款A1或A2所述的方法，所述确定与所述待量化层中每种待量化数据对应的量化参数，包括：

通过查找待量化数据与量化参数对应关系，确定与所述待量化层中每种待量化数据对应的量化参数。

A4、根据条款A1或A2所述的方法，所述确定与所述待量化层中每种待量化数据对应的量化参数，包括：

根据每种待量化数据和对应的数据位宽计算得到对应的量化参数。

A5、根据条款A4所述的方法，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

当所述量化参数不包括偏移量时，根据目标数据中的绝对值最大值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

A6、根据条款A4所述的方法，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

当所述量化参数不包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；

根据目标数据中的绝对值最大值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

A7、根据条款A4所述的方法，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

当所述量化参数包括偏移量时，根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

A8、根据条款A4所述的方法，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

当所述量化参数包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；

根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

A9、根据条款A4所述的方法，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

根据目标数据中的最大值和最小值，得到所述目标数据的偏移量，所述目标数据为任意一种待量化数据。

A10、根据条款A1至A9中任一项所述的方法，所述方法还包括：

根据目标数据和所述目标数据对应的量化数据，确定所述目标数据的量化误差，所述目标数据为任意一种待量化数据；

根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽；

将所述目标数据对应的数据位宽更新为所述调整位宽，根据所述目标数据和所述调整位宽计算得到对应的调整量化参数，以使所述神经网络根据所述调整量化参数进行量化。

A11、根据条款A10所述的方法，所述根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽，包括：

当所述量化误差大于第一误差阈值时，增加所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。

A12、根据条款A11所述的方法，所述方法还包括：

根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

根据所述调整后的量化误差和所述第一误差阈值继续增加所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差小于或等于所述第一误差阈值。

A13、根据条款A10或A11所述的方法，所述根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，包括：

当所述量化误差小于第二误差阈值时，减少所述目标数据对应的数据位宽，所述第二误差阈值小于所述第一误差阈值。

A14、根据条款A13所述的方法，所述方法还包括：

根据所述调整后的量化误差和所述第二误差阈值继续减少所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差大于或等于所述第二误差阈值。

A15、根据条款A1至A14中任一项所述的方法，在所述神经网络运算的微调阶段和/或训练阶段，所述方法还包括：

获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述历史迭代为所述当前迭代之前的迭代；

根据所述目标数据的数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数，所述目标迭代间隔包括至少一次迭代，所述目标数据为任意一种待量化数据。

A16、根据条款A15所述的方法，所述方法还包括：

根据所述目标数据在所述当前迭代的数据位宽，确定所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，以使所述神经网络根据所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，确定量化参数。

A17、根据条款A15所述的方法，所述方法还包括：

根据所述目标数据在所述当前迭代对应的点位置，确定所述目标数据在所述目标迭代间隔内的迭代对应的点位置。

A18、根据条款A15所述的方法，所述获取当前迭代以及历史迭代中目标数据的数据变动幅度，包括：

根据目标数据在当前迭代的点位置，和根据历史迭代间隔确定的与所述当前迭代对应的历史迭代的点位置，计算目标数据对应各迭代间隔的点位置的滑动平均值；

根据所述目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度；

所述根据所述目标数据的数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数，包括：

根据所述第一数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

A19、根据条款A18所述的方法，所述根据所述目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度，包括：

计算所述第一滑动平均值和所述第二滑动平均值的差值；

将所述差值的绝对值确定为第一数据变动幅度。

A20、根据条款A18所述的方法，所述方法还包括：

根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度；

根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

A21、根据条款A20述的方法，所述根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度，包括：

计算在当前迭代所述目标数据和所述目标数据对应的量化数据之间的误差；

将所述误差的平方确定为所述第二数据变动幅度。

A22、根据条款A20所述的方法，所述根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，包括：

根据所述第一数据变动幅度和所述第二数据变动幅度中的最大值，确定所述目标数据对应的目标迭代间隔。

A23、根据条款A15至A22中任一项所述的方法，所述获取当前迭代以及历史迭代中目标数据的数据变动幅度，包括：

在当前迭代位于更新周期以外时，获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述更新周期包括至少一个迭代。

A24、根据条款A15至A23中任一项所述的方法，所述方法还包括：

在当前迭代位于预设周期内时，根据当前迭代、在所述预设周期的下一周期中与所述当前迭代对应的迭代以及当前迭代对应的迭代间隔，确定周期间隔；

根据所述目标数据在当前迭代对应的数据位宽，确定在所述周期间隔内的迭代中所述目标数据的数据位宽；或

A25、根据条款A1至A24中任一项所述的方法，所述方法还包括：

A26、一种神经网络量化装置，所述装置用于量化所述神经网络中的任意一层待量化层，所述装置包括：

A27、根据条款A26所述的装置，所述量化参数包括点位置、缩放系数和偏移量中的至少一种，其中，

所述点位置为量化后小数点的位置，

所述偏移量为待量化数据的中间值。

A28、根据条款A25或A27所述的装置，所述量化参数确定模块，包括：

第一量化参数确定子模块，用于通过查找待量化数据与量化参数对应关系，确定与所述待量化层中每种待量化数据对应的量化参数。

A29、根据条款A26或A27所述的装置，所述量化参数确定模块，包括：

第二量化参数确定子模块，用于根据每种待量化数据和对应的数据位宽计算得到对应的量化参数。

A30、根据条款A29所述的装置，所述第二量化参数确定子模块，包括：

第一点位置计算单元，用于当所述量化参数不包括偏移量时，根据目标数据中的绝对值最大值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

A31、根据条款A29所述的装置，所述第二量化参数确定子模块，包括：

第一缩放系数计算单元，用于当所述量化参数不包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；根据目标数据中的绝对值最大值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

A32、根据条款A29所述的装置，所述第二量化参数确定子模块，包括：

第二点位置计算单元，用于当所述量化参数包括偏移量时，根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据对应的数据位宽，得到所述目标数据的点位置，所述目标数据为任意一种待量化数据。

A33、根据条款A29所述的装置，所述第二量化参数确定子模块，包括：

第二缩放系数计算单元，用于当所述量化参数包括偏移量时，根据目标数据和所述目标数据对应的数据位宽得到所述目标数据量化后数据的最大值，所述目标数据为任意一种待量化数据；根据所述目标数据中的最大值、所述目标数据中的最小值和所述目标数据量化后数据的最大值，得到所述目标数据的缩放系数。

A34、根据条款A29所述的装置，所述第二量化参数确定子模块，包括：

偏移量计算单元，用于根据目标数据中的最大值和最小值，得到所述目标数据的偏移量，所述目标数据为任意一种待量化数据。

A35、根据条款A26至A34中任一项所述的装置，所述装置还包括：

量化误差确定模块，用于根据目标数据和所述目标数据对应的量化数据，确定所述目标数据的量化误差，所述目标数据为任意一种待量化数据；

调整位宽确定模块，用于根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽；

调整量化参数确定模块，用于将所述目标数据对应的数据位宽更新为所述调整位宽，根据所述目标数据和所述调整位宽计算得到对应的调整量化参数，以使所述神经网络根据所述调整量化参数进行量化。

A36、根据条款A35所述的装置，所述调整位宽确定模块，包括：

第一调整位宽确定子模块，用于当所述量化误差大于第一误差阈值时，增加所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽。

A37、根据条款A36所述的装置，所述调整位宽确定模块，还包括：

第一调整量化误差确定子模块，用于根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

第一调整位宽循环确定子模块，用于根据所述调整后的量化误差和所述第一误差阈值继续增加所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差小于或等于所述第一误差阈值。

A38、根据条款A35或A36所述的装置，所述调整位宽确定模块，包括：

第二调整位宽确定子模块，用于当所述量化误差小于第二误差阈值时，减少所述目标数据对应的数据位宽，所述第二误差阈值小于所述第一误差阈值。

A39、根据条款A38所述的装置，所述调整位宽确定模块，还包括：

第二调整量化误差确定子模块，用于根据所述调整位宽和所述目标数据计算所述目标数据调整后的量化误差；

第二调整位宽循环确定子模块，用于根据所述调整后的量化误差和所述第二误差阈值继续减少所述调整位宽，直至根据调整位宽和所述目标数据计算得到的调整后的量化误差大于或等于所述第二误差阈值。

A40、根据条款A26至A39中任一项所述的装置，在所述神经网络运算的微调阶段和/或训练阶段，所述装置还包括：

数据变动幅度确定模块，用于获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述历史迭代为所述当前迭代之前的迭代；

目标迭代间隔确定模块，用于根据所述目标数据的数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数，所述目标迭代间隔包括至少一次迭代，所述目标数据为任意一种待量化数据。

A41、根据条款A40所述的装置，所述装置还包括：

第一目标迭代间隔应用模块，用于根据所述目标数据在所述当前迭代的数据位宽，确定所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，以使所述神经网络根据所述目标数据在所述目标迭代间隔内的迭代对应的数据位宽，确定量化参数。

A42、根据条款A40所述的装置，所述装置还包括：

第二目标迭代间隔应用模块，用于根据所述目标数据在所述当前迭代对应的点位置，确定所述目标数据在所述目标迭代间隔内的迭代对应的点位置。

A43、根据条款A40所述的装置，所述数据变动幅度确定模块，包括：

滑动平均值计算子模块，用于根据目标数据在当前迭代的点位置，和根据历史迭代间隔确定的与所述当前迭代对应的历史迭代的点位置，计算目标数据对应各迭代间隔的点位置的滑动平均值；

第一数据变动幅度确定子模块，用于根据所述目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度；

所述目标迭代间隔确定模块，包括：

第一目标迭代间隔确定子模块，用于根据所述第一数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

A44、根据条款A43所述的装置，所述第一数据变动幅度确定子模块，包括：

第一数据变动幅度确定单元，用于计算所述第一滑动平均值和所述第二滑动平均值的差值；将所述差值的绝对值确定为第一数据变动幅度。

A45、根据条款A43所述的装置，所述数据变动幅度确定模块，包括：

第二数据变动幅度确定子模块，用于根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度；

所述目标迭代间隔确定模块，包括：

第二目标迭代间隔确定子模块，用于根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，以使所述神经网络根据所述目标迭代间隔更新所述目标数据的量化参数。

A46、根据条款A45述的装置，所述第二数据变动幅度确定子模块，包括：

第二数据变动幅度确定单元，用于计算在当前迭代所述目标数据和所述目标数据对应的量化数据之间的误差；将所述误差的平方确定为所述第二数据变动幅度。

A47、根据条款A45所述的装置，所述第二目标迭代间隔确定子模块，用于根据所述第一数据变动幅度和所述第二数据变动幅度中的最大值，确定所述目标数据对应的目标迭代间隔。

A48、根据条款A40至A47中任一项所述的装置，所述数据变动幅度确定模块，包括：

第三数据变动幅度确定子模块，用于在当前迭代位于更新周期以外时，获取当前迭代以及历史迭代中目标数据的数据变动幅度，所述更新周期包括至少一个迭代。

A49、根据条款A40至A48中任一项所述的装置，所述装置还包括：

周期间隔确定模块，用于在当前迭代位于预设周期内时，根据当前迭代、在所述预设周期的下一周期中与所述当前迭代对应的迭代以及当前迭代对应的迭代间隔，确定周期间隔；

第一周期间隔应用模块，用于根据所述目标数据在当前迭代对应的数据位宽，确定在所述周期间隔内的迭代中所述目标数据的数据位宽；或

第二周期间隔应用模块，用于根据所述目标数据在当前迭代对应的点位置，确定在所述周期间隔内的迭代中所述目标数据的点位置。

A50、根据条款A26至A49中任一项所述的装置，所述装置还包括：

量化参数沿用模块，用于在所述待量化层之后的一层或多层采用所述待量化层的量化参数。

A51、一种人工智能芯片，所述芯片包括如条款A26-A50中任意一项所述的神经网络量化装置。

A52、一种电子设备，所述电子设备包括如条款A51所述的人工智能芯片。

A53、一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及如条款A51所述的人工智能芯片；

其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；

所述控制器件，用于对所述人工智能芯片的状态进行监控。

A54、根据权利要求A53所述的板卡，所述存储器件包括：多组存储单元，每一组所述存储单元与所述人工智能芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述芯片包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置为：标准PCIE接口。

以上已经描述了本披露的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种神经网络量化方法，其特征在于，所述神经网络量化方法应用于通用处理器和专用处理器中，对于所述神经网络中的任意一层待量化层，所述方法包括：

将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算，所述量化数据的访存开销小于所述待量化数据的访存开销,

所述确定与所述待量化层中每种待量化数据对应的量化参数，包括：

根据每种待量化数据和对应的数据位宽计算得到对应的量化参数;

所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

2.根据权利要求1所述的方法，其特征在于，所述量化参数包括点位置、缩放系数和偏移量中的至少一种，其中，

所述点位置为量化后小数点的位置，

所述偏移量为待量化数据的中间值。

3.根据权利要求1或2所述的方法，其特征在于，所述确定与所述待量化层中每种待量化数据对应的量化参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据每种待量化数据和对应的数据位宽计算得到对应的量化参数，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，得到所述目标数据对应的调整位宽，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求9所述的方法，其特征在于，所述根据所述量化误差和误差阈值，调整所述目标数据对应的数据位宽，包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求2所述的方法，其特征在于，在所述神经网络运算的微调阶段和/或训练阶段，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

15.根据权利要求13所述的方法，其特征在于，所述方法还包括：

16.根据权利要求13所述的方法，其特征在于，所述获取当前迭代以及历史迭代中目标数据的数据变动幅度，包括：

17.根据权利要求16所述的方法，其特征在于，所述根据所述目标数据在当前迭代的点位置的第一滑动平均值，以及在上一迭代间隔对应迭代的点位置的第二滑动平均值，得到第一数据变动幅度，包括：

计算所述第一滑动平均值和所述第二滑动平均值的差值；

将所述差值的绝对值确定为第一数据变动幅度。

18.根据权利要求16所述的方法，其特征在于，所述方法还包括：

19.根据权利要求18所述的方法，其特征在于，所述根据在当前迭代所述目标数据和所述目标数据对应的量化数据，得到第二数据变动幅度，包括：

将所述误差的平方确定为所述第二数据变动幅度。

20.根据权利要求18所述的方法，其特征在于，所述根据所述目标数据的第一数据变动幅度和所述第二数据变动幅度，确定所述目标数据对应的目标迭代间隔，包括：

21.根据权利要求13所述的方法，其特征在于，所述获取当前迭代以及历史迭代中目标数据的数据变动幅度，包括：

22.根据权利要求13所述的方法，其特征在于，所述方法还包括：

23.根据权利要求1所述的方法，其特征在于，所述方法还包括：

24.一种神经网络量化装置，其特征在于，所述装置用于量化所述神经网络中的任意一层待量化层，所述装置包括：

量化模块，用于将待量化数据根据对应的量化参数进行量化，得到量化数据，以使所述神经网络根据所述量化数据执行运算，所述量化数据的访存开销小于所述待量化数据的访存开销,

所述量化参数确定模块，包括：

第二量化参数确定子模块，用于根据每种待量化数据和对应的数据位宽计算得到对应的量化参数;

所述第二量化参数确定子模块，包括：

25.根据权利要求24所述的装置，其特征在于，所述量化参数包括点位置、缩放系数和偏移量中的至少一种，其中，

所述点位置为量化后小数点的位置，

所述偏移量为待量化数据的中间值。

26.根据权利要求24或25所述的装置，其特征在于，所述量化参数确定模块，包括：

27.根据权利要求24所述的装置，其特征在于，所述第二量化参数确定子模块，包括：

28.根据权利要求24所述的装置，其特征在于，所述第二量化参数确定子模块，包括：

29.根据权利要求24所述的装置，其特征在于，所述第二量化参数确定子模块，包括：

30.根据权利要求24所述的装置，其特征在于，所述第二量化参数确定子模块，包括：

31.根据权利要求24所述的装置，其特征在于，所述装置还包括：

32.根据权利要求31所述的装置，其特征在于，所述调整位宽确定模块，包括：

33.根据权利要求32所述的装置，其特征在于，所述调整位宽确定模块，还包括：

34.根据权利要求32所述的装置，其特征在于，所述调整位宽确定模块，包括：

35.根据权利要求34所述的装置，其特征在于，所述调整位宽确定模块，还包括：

36.根据权利要求24所述的装置，其特征在于，在所述神经网络运算的微调阶段和/或训练阶段，所述装置还包括：

37.根据权利要求36所述的装置，其特征在于，所述装置还包括：

38.根据权利要求36所述的装置，其特征在于，所述装置还包括：

39.根据权利要求36所述的装置，其特征在于，所述数据变动幅度确定模块，包括：

所述目标迭代间隔确定模块，包括：

40.根据权利要求39所述的装置，其特征在于，所述第一数据变动幅度确定子模块，包括：

41.根据权利要求39所述的装置，其特征在于，所述数据变动幅度确定模块，包括：

所述目标迭代间隔确定模块，包括：

42.根据权利要求41所述的装置，其特征在于，所述第二数据变动幅度确定子模块，包括：

43.根据权利要求41所述的装置，其特征在于，所述第二目标迭代间隔确定子模块，用于根据所述第一数据变动幅度和所述第二数据变动幅度中的最大值，确定所述目标数据对应的目标迭代间隔。

44.根据权利要求36所述的装置，其特征在于，所述数据变动幅度确定模块，包括：

45.根据权利要求36所述的装置，其特征在于，所述装置还包括：

46.根据权利要求24所述的装置，其特征在于，所述装置还包括：

47.一种人工智能芯片，其特征在于，所述芯片包括如权利要求24-46中任意一项所述的神经网络量化装置。

48.一种电子设备，其特征在于，所述电子设备包括如权利要求47所述的人工智能芯片。

49.一种板卡，其特征在于，所述板卡包括：存储器件、接口装置和控制器件以及如权利要求47所述的人工智能芯片；

所述存储器件，用于存储数据；

所述控制器件，用于对所述人工智能芯片的状态进行监控。

50.根据权利要求49所述的板卡，其特征在于，

所述存储器件包括：多组存储单元，每一组所述存储单元与所述人工智能芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述接口装置为：标准PCIE接口。