CN112381224A

CN112381224A - 神经网络训练方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112381224A
Application number: CN202011275171.7A
Authority: CN
Inventors: 张天豫; 范力欣; 吴锦和
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19

Abstract

本发明公开了一种神经网络训练方法，包括以下步骤：随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；对所述目标随机参数进行量化处理，以获得量化参数；基于所述目标随机参数以及所述量化参数确定量化损失值；基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络。本发明还公开了一种神经网络训练装置、设备及计算机可读存储介质。本发明过量化参数对神经网络进行训练，以使得训练得到的目标神经网络具有较强的模型可解释性，并且，通过选择目标随机参数，避免对神经网络中的大量冗余参数进行处理，降低模型训练过程中的网络计算量，以便于将神经网络小型化而部署于小型边缘设备中。

Description

神经网络训练方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及神经网络领域，尤其涉及一种神经网络训练方法、装置、设备及计算机可读存储介质。

背景技术

随着人工智能的发展，深度学习在图像检测以及语音识别等领域体现出巨大的优势。神经网络是深度学习的一种重要算法。但是，由于神经网络中有存在大量冗余参数，会导致神经网络模型的计算量巨大，因此在一些应用场景例如在嵌入式设备等小型边缘设备中无法直接使用。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种神经网络训练方法、装置、设备及计算机可读存储介质，旨在解决现有神经网络模型的计算量巨大的技术问题。

为实现上述目的，本发明提供一种神经网络训练方法，所述神经网络训练方法包括以下步骤：

随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；

对所述目标随机参数进行量化处理，以获得量化参数；

基于所述目标随机参数以及所述量化参数确定量化损失值；

基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。

进一步地，所述基于所述目标随机参数以及所述量化参数确定量化损失值的步骤包括：

基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值；

基于所述第一损失值以及所述第二损失值，确定所述量化损失值。

进一步地，失值的步骤包括：

基于所述输入数据以及所述目标随机参数，确定第一损失值；

基于所述输入数据以及所述量化参数，确定第二损失值。

进一步地，所述基于所述第一损失值以及所述第二损失值，确定所述量化损失值的步骤包括：

基于所述第一损失值、所述第二损失值以及预设合页损失函数，确定所述量化损失值。

进一步地，所述对所述目标随机参数进行量化处理，以获得量化参数的步骤包括：

基于所述目标随机参数的符号对各个目标随机参数进行二值量化处理，以获得所述量化参数。

进一步地，所述基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络的步骤包括：

获取初始化后的待训练神经网络对应的损失函数值；

基于所述量化损失值以及所述损失函数值，确定目标神经网络。

进一步地，所述基于所述量化损失值以及所述损失函数值，确定目标神经网络的步骤包括：

基于所述量化损失值以及所述损失函数值，确定总损失函数值；

基于所述总损失函数值更新初始化后的待训练神经网络，以获得更新后的神经网络，并确定所述总损失函数值是否小于预设损失值；

若所述总损失函数值小于预设损失值，则将更新后的神经网络作为所述目标神经网络；

若所述总损失函数值大于或等于预设损失值，则将更新后的神经网络作为初始化后的待训练神经网络，并返回执行基于输入数据，获取初始化后的待训练神经网络的目标随机参数的步骤。

此外，为实现上述目的，本发明还提供一种神经网络训练装置，所述神经网络训练装置包括：

初始化模块，用于随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；

量化模块，用于对所述目标随机参数进行量化处理，以获得量化参数；

第一确定模块，用于基于所述目标随机参数以及所述量化参数确定量化损失值；

第二确定模块，用于基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。

此外，为实现上述目的，本发明还提供一种神经网络训练设备，所述神经网络训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的神经网络训练程序，所述神经网络训练程序被所述处理器执行时实现前述的神经网络训练方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有神经网络训练程序，所述神经网络训练程序被处理器执行时实现前述的神经网络训练方法的步骤。

本发明通过随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；接着对所述目标随机参数进行量化处理，以获得量化参数；而后基于所述目标随机参数以及所述量化参数确定量化损失值；然后基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络，通过量化参数对神经网络进行训练，以使得训练得到的目标神经网络具有较强的模型可解释性，并且，通过选择目标随机参数，避免对神经网络中的大量冗余参数进行处理，降低模型训练过程中的网络计算量，以便于将神经网络小型化而部署于小型边缘设备中。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中神经网络训练设备的结构示意图；

图2为本发明神经网络训练方法第一实施例的流程示意图；

图3为本发明神经网络训练装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中神经网络训练设备的结构示意图。

本发明实施例神经网络训练设备可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该神经网络训练设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，神经网络训练设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在神经网络训练设备移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别神经网络训练设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对神经网络训练设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及神经网络训练程序。

在图1所示的神经网络训练设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的神经网络训练程序。

在本实施例中，神经网络训练设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的神经网络训练程序，其中，处理器1001调用存储器1005中存储的神经网络训练程序时，并执行以下各个实施例中神经网络训练方法的步骤。

本发明还提供一种神经网络训练方法，参照图2，图2为本发明神经网络训练方法第一实施例的流程示意图。

该神经网络训练方法包括以下步骤：

步骤S101，随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；

本实施例中，在进行神经网络训练时，需要先初始化待训练神经网络，具体地，随机初始化待训练神经网络，即待训练神经网络使用任意方式进行初始化，以得到初始化后的待训练神经网络。

而后，获取输入数据，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数，具体地，将输入数据输入初始化后的待训练神经网络进行训练，得到训练后的神经网络，获取训练后的神经网络对应的目标随机参数，该目标随机参数为训练后的神经网络中目标层的参数，例如目标层的所有参数或者目标层的部分特定参数，该目标层为训练后的神经网络中的特定层(例如某一层或者多层)，该目标层可以根据需要训练的待训练神经网络进行合理设置，以使得训练得到的目标神经网络具有较强的模型可解释性。

步骤S102，对所述目标随机参数进行量化处理，以获得量化参数；

本实施例中，在获取到目标随机参数时，对目标随机参数进行量化处理，以获得量化参数，具体地，在可以二值量化或者多值量化的方式对目标随机参数进行量化处理，以二值量化为例，可根据目标随机参数的符号进行二值量化，例如，将目标随机参数中小于0的参数量化为a，将目标随机参数中大于0的参数量化为b，为便于后续的处理，a≠b，且a与b均不为0。

步骤S103，基于所述目标随机参数以及所述量化参数确定量化损失值；

本实施例中，在得到量化参数之后，根据目标随机参数以及量化参数确定量化损失值，具体地，可根据目标随机参数确定第一损失值，根据量化参数确定第二损失值，而后根据第一损失值以及第二损失值计算量化损失值。

步骤S104，基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。

本实施例中，在获取到量化损失值时，基于该量化损失值以及初始化后的待训练神经网络，确定目标神经网络，具体地，获取初始化后的待训练神经网络对应的损失函数值，并根据量化损失值以及损失函数值确定目标神经网络。

进一步地，在一实施例中，步骤S102包括：

步骤a，基于所述目标随机参数的符号对各个目标随机参数进行二值量化处理，以获得所述量化参数。

本实施例中，根据目标随机参数的符号进行二值量化，具体地，在获取到目标随机参数时，获取各个目标随机参数的符号，根据各个目标随机参数的符号对各个目标随机参数进行二值量化，例如，将目标随机参数中小于0的参数量化为a，将目标随机参数中大于0的参数量化为b，为便于后续的处理，a≠b，且a与b均不为0，譬如，a＝-1，b＝1。

本实施例中，可以通过人为设定目标随机参数的选取范围，以引导量化参数的量化过程，考察对应随机参数在神经网络中的作用，以实现随机参数的自适应量化，并通过量化参数对神经网络进行训练，以使得训练得到的目标神经网络具有较强的模型可解释性，同时通过选择目标随机参数，避免对神经网络中的大量冗余参数进行处理，降低模型训练过程中的网络计算量，以便于将神经网络小型化而部署于小型边缘设备中。

本实施例提出的神经网络训练方法，通过随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；接着对所述目标随机参数进行量化处理，以获得量化参数；而后基于所述目标随机参数以及所述量化参数确定量化损失值；然后基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络，通过量化参数对神经网络进行训练，以使得训练得到的目标神经网络具有较强的模型可解释性，并且，通过选择目标随机参数，避免对神经网络中的大量冗余参数进行处理，降低模型训练过程中的网络计算量，以便于将神经网络小型化而部署于小型边缘设备中。

基于第一实施例，提出本发明神经网络训练方法的第二实施例，在本实施例中，步骤S103包括：

步骤S201，基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值；

步骤S202，基于所述第一损失值以及所述第二损失值，确定所述量化损失值。

本实施例中，在得到量化参数之后，根据目标随机参数确定第一损失值，根据量化参数确定第二损失值，具体地，基于输入数据以及目标随机参数计算第一损失值，并根据输入数据以及量化参数计算第二损失值。

具体地，一实施例中，该步骤S201包括：

步骤b，基于所述输入数据以及所述目标随机参数，确定第一损失值；

步骤c，基于所述输入数据以及所述量化参数，确定第二损失值。

本实施例中，分别根据下式计算第一损失值以及第二损失值，

z₁＝w^T*x；

z₂＝t^T*x；

其中，x为输入数据，w为目标随机参数，t为量化参数，z₁为第一损失值，z₂为第二损失值。

在获取到第一损失值以及第二损失值之后，根据第一损失值以及第二损失值，确定量化损失值，具体地，可根据合页损失函数或者合页损失函数的变种函数计算量化损失值，以合页损失函数为例，通过下式计算量化损失值，Loss₁＝max(0,1–(z₁+z₂))；

其中，Loss₁为量化损失值。

具体地，一实施例中，步骤S202包括：

步骤d，基于所述第一损失值、所述第二损失值以及预设合页损失函数，确定所述量化损失值。

本实施例提出的神经网络训练方法，通过基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值；接着基于所述第一损失值以及所述第二损失值，确定所述量化损失值，能够通过目标随机参数以及量化参数准确得到量化损失值，提高量化损失值的准确性，进而提高模型训练的准确性以及效率，通过量化参数提高目标神经网络的模型可解释性。

基于上述各个实施例，提出本发明神经网络训练方法的第三实施例，在本实施例中，步骤S104包括：

步骤S301，获取初始化后的待训练神经网络对应的损失函数值；

步骤S302，基于所述量化损失值以及所述损失函数值，确定目标神经网络。

本实施例中，在获取到量化损失值后，获取初始化后的待训练神经网络对应的损失函数值，具体地，获取初始化后的待训练神经网络对应的输出结果即输入数据对应的预测结果，并获取输入数据对应的真实结果，并基于真实结果以及预测结果计算初始化后的待训练神经网络对应的损失函数值，具体可通过现有的损失函数计算方式计算该损失函数值。

而后，基于量化损失值以及所述损失函数值，确定目标神经网络，具体地，可通过量化损失值以及损失函数值计算总损失函数值，并根据总损失函数值确定目标神经网络。

本实施例提出的神经网络训练方法，通过获取初始化后的待训练神经网络对应的损失函数值；接着基于所述量化损失值以及所述损失函数值，确定目标神经网络，实现了根据量化损失值以及损失函数值得到目标神经网络，以提高目标神经网络的准确性，同时通过量化参数对应的量化损失值提高目标神经网络的模型可解释性。

基于第三实施例，提出本发明神经网络训练方法的第四实施例，在本实施例中，步骤S302包括：

步骤S401，基于所述量化损失值以及所述损失函数值，确定总损失函数值；

本实施例中，在获取到初始化后的待训练神经网络对应的损失函数值后，通过量化损失值以及损失函数值计算总损失函数值，例如，总损失函数值可以为量化损失值以及损失函数值之和，即

Loss_total＝Loss₁+Loss_net；

其中，Loss_total为总损失函数值，Loss₁为量化损失值，Loss_net为损失函数值。

或者，在计算总损失函数值时可以增加量化损失值对应的权重及/或损失函数值对应的权重，例如通过下式计算总损失函数值，

Loss_total＝y*Loss₁+x*Loss_net；

其中，y为量化损失值对应的权重，x为损失函数值对应的权重，y小于1，且x≤1，例如，x为1，y为0.8。

步骤S402，基于所述总损失函数值更新初始化后的待训练神经网络，以获得更新后的神经网络，并确定所述总损失函数值是否小于预设损失值；

步骤S403，若所述总损失函数值小于预设损失值，则将更新后的神经网络作为所述目标神经网络；

步骤S404，若所述总损失函数值大于或等于预设损失值，则将更新后的神经网络作为初始化后的待训练神经网络，并返回执行基于输入数据，获取初始化后的待训练神经网络的目标随机参数的步骤。

本实施例中，在获取到总损失函数值时，基于总损失函数值更新初始化后的待训练神经网络，以获得更新后的神经网络，并确定总损失函数值是否小于预设损失值。其中，预设损失值可以进行合理设置，例如预设损失值为0.03％等。

若总损失函数值小于预设损失值，则判定当前更新后的神经网络收敛，进而将更新后的神经网络作为所述目标神经网络。

若总损失函数值大于或等于预设损失值，则判定当前更新后的神经网络未收敛，将更新后的神经网络作为初始化后的待训练神经网络，并返回执行基于输入数据，获取初始化后的待训练神经网络的目标随机参数的步骤，直至新的总损失函数值小于预设损失值，以获得收敛的目标神经网络。

需要说明的是，在其他实施例中，在基于所述总损失函数值更新初始化后的待训练神经网络时，累计更新次数，若总损失函数值大于或等于预设损失值，则判断更新次数是否达到预设次数，若是则将更新后的神经网络作为所述目标神经网络，否则将更新后的神经网络作为初始化后的待训练神经网络，并返回执行基于输入数据，获取初始化后的待训练神经网络的目标随机参数的步骤，直至新的总损失函数值小于预设损失值，以获得收敛的目标神经网络。

本实施例提出的神经网络训练方法，通过基于所述量化损失值以及所述损失函数值，确定总损失函数值；接着基于所述总损失函数值更新初始化后的待训练神经网络，以获得更新后的神经网络，并确定所述总损失函数值是否小于预设损失值；接着若所述总损失函数值小于预设损失值，则将更新后的神经网络作为所述目标神经网络；而后若所述总损失函数值大于或等于预设损失值，则将更新后的神经网络作为初始化后的待训练神经网络，并返回执行基于输入数据，获取初始化后的待训练神经网络的目标随机参数的步骤，能够根据总损失函数值得到收敛的目标神经网络，提高目标神经网络的准确性。

本发明实施例还提供一种神经网络训练装置，参照图3，图3为本发明神经网络训练装置一实施例的功能模块示意图，所述神经网络训练装置包括：

初始化模块100，用于随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；

量化模块200，用于对所述目标随机参数进行量化处理，以获得量化参数；

第一确定模块300，用于基于所述目标随机参数以及所述量化参数确定量化损失值；

第二确定模块400，用于基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。

可选地，第一确定模块300还用于：

基于所述输入数据以及所述量化参数，确定第二损失值。

可选地，第一确定模块300还用于：

可选地，第二确定模块400还用于：

获取初始化后的待训练神经网络对应的损失函数值；

可选地，第二确定模块400还用于：

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有神经网络训练程序，所述神经网络训练程序被处理器执行时实现如上所述的神经网络训练方法的步骤。

其中，在所述处理器上运行的神经网络训练程序被执行时所实现的方法可参照本发明神经网络训练方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种神经网络训练方法，其特征在于，所述神经网络训练方法包括以下步骤：

对所述目标随机参数进行量化处理，以获得量化参数；

基于所述目标随机参数以及所述量化参数确定量化损失值；

2.如权利要求1所述的神经网络训练方法，其特征在于，所述基于所述目标随机参数以及所述量化参数确定量化损失值的步骤包括：

3.如权利要求2所述的神经网络训练方法，其特征在于，所述基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值的步骤包括：

基于所述输入数据以及所述量化参数，确定第二损失值。

4.如权利要求2所述的神经网络训练方法，其特征在于，所述基于所述第一损失值以及所述第二损失值，确定所述量化损失值的步骤包括：

5.如权利要求1所述的神经网络训练方法，其特征在于，所述对所述目标随机参数进行量化处理，以获得量化参数的步骤包括：

6.如权利要求1至5任一项所述的神经网络训练方法，其特征在于，所述基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络的步骤包括：

获取初始化后的待训练神经网络对应的损失函数值；

7.如权利要求6所述的神经网络训练方法，其特征在于，所述基于所述量化损失值以及所述损失函数值，确定目标神经网络的步骤包括：

8.一种神经网络训练装置，其特征在于，所述神经网络训练装置包括：

9.一种神经网络训练设备，其特征在于，所述神经网络训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的神经网络训练程序，所述神经网络训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的神经网络训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有神经网络训练程序，所述神经网络训练程序被处理器执行时实现如权利要求1至7中任一项所述的神经网络训练方法的步骤。