CN114372560A - 一种神经网络训练方法、装置、设备及存储介质 - Google Patents
一种神经网络训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114372560A CN114372560A CN202111650469.6A CN202111650469A CN114372560A CN 114372560 A CN114372560 A CN 114372560A CN 202111650469 A CN202111650469 A CN 202111650469A CN 114372560 A CN114372560 A CN 114372560A
- Authority
- CN
- China
- Prior art keywords
- neural network
- loss function
- training
- sample set
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 39
- 210000002569 neuron Anatomy 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 63
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种神经网络训练方法、装置、设备及存储介质,该方法包括:获取步骤,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;优化步骤,优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;训练步骤,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。本发明通过对损失函数进行优化,从而减小由于分类样本不均衡导致的梯度方向偏差,减小的含义是,在同样的样本集经过同样的训练次数后,梯度方向的偏差相比现有方案更小,其可以解决由于现有损失函数导致的缺陷。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种神经网络训练方法、装置、设备及存储介质。
背景技术
不同于经典的回归任务以及分类任务,有序回归任务用于描述一个事物的等级,其兼具了回归任务的趋势性和分类任务的离散性。对于神经网络模型,一般通过统计输出层中大于给定阈值t的单元个数,看作模型的预测值。优化时往往将每一个输出层神经元当作一个独立的二分类任务,并使用sigmoid函数进行激活,分别对每个神经元计算其二分类交叉熵,取和或取均值作为损失函数来进行模型的训练。
现有技术中的有序回归在神经网络模型中可以将每个输出的神经元看作单独的二分类任务,然而由于有序回归任务本身各个神经元之间存在依赖关系的性质,必然会导致各个神经元的正负样本数量差距随着神经元数量的增多而增大,使用传统的二分类交叉熵求和或取均值的损失函数,会导致个别神经元由于分类样本不均衡,导致优化梯度方向有所偏差。
经实验研究证明,现有技术中的有序回归损失函数是导致上述缺陷的原因,现有技术中的有序回归损失函数为:第n个神经元的损失函数ln和总的损失函数L分别为
ln=-(ynlogxn+(1-yn)log(1-xn))
因此,如何优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差是有序回归任务神经网络模型的一项重要挑战。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种神经网络训练方法,该神经网络用于有序回归任务的处理,该方法包括:
获取步骤,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;
优化步骤,优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;
训练步骤,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。
更进一步地,所述方法还包括:
预测步骤,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。
更进一步地,在所述优化步骤中,所述优化后的损失函数为:
其中,l′n为第n个神经元的损失函数,L′为所述神经网络模型总损失函数,γ和α为超参数,N为神经元总数,ln=-(ynlogxn+(1-yn)log(1-xn))为优化前的第n个神经元的损失函数。
本发明还提出了一种神经网络训练装置,该神经网络用于有序回归任务的处理,该装置包括:
获取单元,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;
优化单元,优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;
训练单元,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。
更进一步地,所述装置还包括:
预测单元,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。
更进一步地,在所述优化单元中,所述优化后的损失函数为:
其中,l′n为第n个神经元的损失函数,L′为所述神经网络模型总损失函数,γ和α为超参数,N为神经元总数,ln=-(ynlogxn+(1-yn)log(1-xn))为优化前的第n个神经元的损失函数。
本发明还提出了一种神经网络训练设备,所述设备包括处理器和存储器,所述处理器与所述处理器通过总线连接,所述存储器上存储有计算机程序,所述处理器执行所述存储器上的计算机程序时实现上述之任一的方法。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种神经网络训练方法、装置、设备及存储介质,该方法包括:获取步骤,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;优化步骤,优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;训练步骤,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型;预测步骤,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。本发明中针对该缺陷,通过对损失函数进行优化,从而减小由于分类样本不均衡导致的梯度方向偏差,减小的含义是,在同样的样本集经过同样的训练次数后,梯度方向的偏差相比现有方案更小,其可以解决由于现有损失函数导致的缺陷。相比现有技术中的未修改损失函数的方案,对于正负样本数量较少的幼儿和高龄人群的年龄能够给出更为准确的预测值,提高了预测结果,本发明中提出了具体的损失函数的计算方法,使用本申请的损失函数的计算方法,训练后的神经网络模型,可以将由于分类样本不均衡导致的梯度方向偏差最小,提高了神经网络模型的预测准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种神经网络训练方法的流程图。
图2是根据本发明的实施例的一种神经网络训练装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种神经网络训练方法,该神经网络用于有序回归任务的处理,该方法包括:
获取步骤S101,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;所述样本集中的图片样本具有对应的类别标签,所述样本集可以是从网络上下载的样本集,也可以是摄像头采集的图像经人工或机器模型标注后的样本集。
优化步骤S102,对所述神经网络模型的损失函数进行优化,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;现有技术中,由于使用传统的二分类交叉熵求和或取均值的损失函数,会导致个别神经元由于分类样本不均衡,导致优化梯度方向有所偏差,这样导致训练后的神经模型预测精度低,本发明中针对该缺陷,通过对损失函数进行优化,从而减小由于分类样本不均衡导致的梯度方向偏差,减小的含义是,在同样的样本集经过同样的训练次数后,梯度方向的偏差相比现有方案更小,这是本发明的重要发明点,其可以解决由于现有损失函数导致的缺陷。
训练步骤S103,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。本发明的训练可以在单台计算机或多台计算机进行训练,比如进行分布式、联邦训练等等
在一个实施例中,所述方法还包括:
预测步骤S104,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。本发明将训练好的神经网络模型应用于人脸年龄预测上,相比现有技术中的未修改损失函数的方案,对于正负样本数量较少的幼儿和高龄人群的年龄能够给出更为准确的预测值,提高了预测结果,这是本发明的另一个重要发明点。
在一个实施例中,在所述优化步骤S102中,所述优化后的损失函数为:
其中,l′n为第n个神经元的损失函数,L′为所述神经网络模型总损失函数,γ和α为超参数,N为神经元总数,ln=-(ynlogxn+(1-yn)log(1-xn))为优化前的第n个神经元的损失函数,γ控制损失函数的“惩罚区分度”,当ln较小时,给予对应神经元较小的惩罚系数当ln较大时,则给予较大的惩罚系数α为控制损失函数的放缩因子。结合上式,作为模型的损失函数进行训练,本发明中提出了具体的损失函数的计算方法,使用本申请的损失函数的计算方法,训练后的神经网络模型,可以将由于分类样本不均衡导致的梯度方向偏差最小,提高了神经网络模型的预测准确度,这是本发明的重要发明点。
图2示出了本发明的一种神经网络训练装置,该装置包括:
获取单元201,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;所述样本集中的图片样本具有对应的类别标签,所述样本集可以是从网络上下载的样本集,也可以是摄像头采集的图像经人工或机器模型标注后的样本集。
优化单元202,对所述神经网络模型的损失函数进行优化,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;现有技术中,由于使用传统的二分类交叉熵求和或取均值的损失函数,会导致个别神经元由于分类样本不均衡,导致优化梯度方向有所偏差,这样导致训练后的神经模型预测精度低,本发明中针对该缺陷,通过对损失函数进行优化,从而减小由于分类样本不均衡导致的梯度方向偏差,减小的含义是,在同样的样本集经过同样的训练次数后,梯度方向的偏差比现有方案更小,这是本发明的重要发明点,其可以解决由于现有损失函数导致的缺陷。
训练单元203,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。本发明的训练可以在单台计算机或多台计算机进行训练,比如进行分布式、联邦训练等等
在一个实施例中,所述方法还包括:
预测单元204,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。本发明将训练好的神经网络模型应用于人脸年龄预测上,相比现有技术中的未修改损失函数的方案,对于正负样本数量较少的幼儿和高龄人群的年龄能够给出更为准确的预测值,提高了预测结果,这是本发明的另一个重要发明点。
在一个实施例中,在所述优化单元202中,所述优化后的损失函数为:
其中,l′n为第n个神经元的损失函数,L′为所述神经网络模型总损失函数,γ和α为超参数,N为神经元总数,ln=-(ynlogxn+(1-yn)log(1-xn))为优化前的第n个神经元的损失函数,γ控制损失函数的“惩罚区分度”,当ln较小时,给予对应神经元较小的惩罚系数当ln较大时,则给予较大的惩罚系数α为控制损失函数的放缩因子。结合上式,作为模型的损失函数进行训练,本发明中提出了具体的损失函数的计算方法,使用本申请的损失函数的计算方法,训练后的神经网络模型,可以将由于分类样本不均衡导致的梯度方向偏差最小,提高了神经网络模型的预测准确度,这是本发明的重要发明点。
本发明一个实施例中提出了一种神经网络训练设备,所述设备包括处理器和存储器,所述处理器与所述处理器通过总线连接,所述存储器上存储有计算机程序,所述处理器执行所述存储器上的计算机程序时实现上述的方法,该设备可以是台式计算机、服务器、笔记本、智能终端等等。
本发明一个实施例中提出了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法,该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种神经网络训练方法,该神经网络用于有序回归任务的处理,其特征在于,该方法包括:
获取步骤,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;
优化步骤,优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;
训练步骤,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预测步骤,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。
4.一种神经网络训练装置,该神经网络用于有序回归任务的处理,其特征在于,该装置包括:
获取单元,获取用于神经网络训练的样本集,所述样本集包括多个不同类别的图片;
优化单元,优化现有的神经网络模型损失函数,减小每个神经元由于分类样本不均衡导致的梯度方向偏差;
训练单元,使用优化后的损失函数对所述神经网络使用所述样本集进行训练得到训练好的神经网络模型。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
预测单元,使用所述训练好的神经网络模型对输入的测试图像进行年龄预测。
7.一种神经网络训练设备,所述设备包括处理器和存储器,所述处理器与所述处理器通过总线连接,所述存储器上存储有计算机程序,所述处理器执行所述存储器上的计算机程序时实现权利要求1-3任一项的方法。
8.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现权利要求1-3任一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111650469.6A CN114372560A (zh) | 2021-12-30 | 2021-12-30 | 一种神经网络训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111650469.6A CN114372560A (zh) | 2021-12-30 | 2021-12-30 | 一种神经网络训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372560A true CN114372560A (zh) | 2022-04-19 |
Family
ID=81142907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111650469.6A Pending CN114372560A (zh) | 2021-12-30 | 2021-12-30 | 一种神经网络训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372560A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910793A (zh) * | 2023-09-12 | 2023-10-20 | 厦门泛卓信息科技有限公司 | 一种基于神经网络的数据加密方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110650153A (zh) * | 2019-10-14 | 2020-01-03 | 北京理工大学 | 一种基于聚焦损失深度神经网络的工控网络入侵检测方法 |
CN110991652A (zh) * | 2019-12-02 | 2020-04-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、装置及电子设备 |
WO2020220544A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 不平衡数据分类模型训练方法、装置、设备及存储介质 |
-
2021
- 2021-12-30 CN CN202111650469.6A patent/CN114372560A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020220544A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 不平衡数据分类模型训练方法、装置、设备及存储介质 |
CN110650153A (zh) * | 2019-10-14 | 2020-01-03 | 北京理工大学 | 一种基于聚焦损失深度神经网络的工控网络入侵检测方法 |
CN110991652A (zh) * | 2019-12-02 | 2020-04-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
刘薇: "基于卷积神经网络的人脸属性识别研究", 《中国优秀硕士学位论文全文数据库》, no. 01, 15 January 2020 (2020-01-15), pages 138 - 2066 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910793A (zh) * | 2023-09-12 | 2023-10-20 | 厦门泛卓信息科技有限公司 | 一种基于神经网络的数据加密方法、装置及存储介质 |
CN116910793B (zh) * | 2023-09-12 | 2023-12-08 | 厦门泛卓信息科技有限公司 | 一种基于神经网络的数据加密方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636343B2 (en) | Systems and methods for neural network pruning with accuracy preservation | |
WO2021155706A1 (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
CN110892417B (zh) | 具有学习教练的异步代理以及在不降低性能的情况下在结构上修改深度神经网络 | |
KR102558300B1 (ko) | 신경망 및 신경망 트레이닝 방법 | |
EP3306534B1 (en) | Inference device and inference method | |
EP3602419B1 (en) | Neural network optimizer search | |
US20170344881A1 (en) | Information processing apparatus using multi-layer neural network and method therefor | |
CN111291895B (zh) | 组合特征评估模型的样本生成和训练方法及装置 | |
US10922587B2 (en) | Analyzing and correcting vulnerabilities in neural networks | |
Politikos et al. | Automating fish age estimation combining otolith images and deep learning: The role of multitask learning | |
CN114896067B (zh) | 任务请求信息的自动生成方法、装置、计算机设备及介质 | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
Pietron et al. | Retrain or not retrain?-efficient pruning methods of deep cnn networks | |
Ibragimovich et al. | Effective recognition of pollen grains based on parametric adaptation of the image identification model | |
US11625583B2 (en) | Quality monitoring and hidden quantization in artificial neural network computations | |
Urgun et al. | Composite system reliability analysis using deep learning enhanced by transfer learning | |
CN116594748A (zh) | 针对任务的模型定制处理方法、装置、设备和介质 | |
Sharma et al. | Automatic identification of bird species using audio/video processing | |
CN111079930A (zh) | 数据集质量参数的确定方法、装置及电子设备 | |
CN114372560A (zh) | 一种神经网络训练方法、装置、设备及存储介质 | |
CN114491289B (zh) | 一种双向门控卷积网络的社交内容抑郁检测方法 | |
JP7073171B2 (ja) | 学習装置、学習方法及びプログラム | |
CN115346084A (zh) | 样本处理方法、装置、电子设备、存储介质及程序产品 | |
CN115761343A (zh) | 一种基于持续学习的图像分类方法及图像分类装置 | |
CN110852361B (zh) | 基于改进深度神经网络的图像分类方法、装置与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |