CN117475253A - 一种模型训练方法、装置、电子设备及存储介质 - Google Patents
一种模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117475253A CN117475253A CN202311292060.0A CN202311292060A CN117475253A CN 117475253 A CN117475253 A CN 117475253A CN 202311292060 A CN202311292060 A CN 202311292060A CN 117475253 A CN117475253 A CN 117475253A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- classification model
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 227
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000001514 detection method Methods 0.000 claims abstract description 309
- 238000013145 classification model Methods 0.000 claims abstract description 214
- 238000000605 extraction Methods 0.000 claims abstract description 199
- 230000011218 segmentation Effects 0.000 claims abstract description 173
- 238000002372 labelling Methods 0.000 claims abstract description 132
- 230000006870 function Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 24
- 238000003709 image segmentation Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000758 substrate Substances 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 15
- 230000006872 improvement Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种模型训练方法、装置、电子设备及存储介质,涉及计算机视觉技术领域。该方法包括:确定待训练的图像分类模型,图像分类模型包含特征提取层、多个检测网络与分割网络,每一检测网络对应的目标尺寸范围为该检测网络所检测对象的尺寸范围;基于样本图像与第一标注信息对特征提取层与检测网络训练,得到训练完成的特征提取层与检测网络;特征提取层提取多种尺寸的特征图,检测网络基于属于检测网络尺寸的特征图进行对象检测;基于样本图像、第二标注信息与训练完成的特征提取层对分割网络训练,得到训练完成的分割网络以训练完成图像分类模型。本方案在保证提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种模型训练方法、装置、电子设备及存储介质。
背景技术
随着人工智能的快速发展,针对图像中的对象进行分类的需求也越来越多。
相关技术中,为了对图像中的对象进行分类,通常使用以下两种方式;第一种方式:利用对象检测模型,通过边界框定位图像中的对象,然后检测出各边界框中对象的类别;第二种方式:利用对象分割模型,标注图像的各个像素的类别,以像素级别的标注来分割图像中的各个对象,形成图像中各个对象的精确轮廓。
然而,利用对象检测模型与对象分割模型对图像中的对象进行分类,所产生的分类结果的形式不同,那么,为了给用户提供多种形式的分类结果,则相关技术中需要分别针对对象检测模型以及对象分割模型进行训练以用于生成不同形式的分类结果,这样导致模型训练效率较低,且训练得到的模型的准确率无法满足准确率要求。
发明内容
本发明实施例的目的在于提供一种模型训练方法、装置、电子设备及存储介质,以在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
具体技术方案如下:
在本发明实施例的第一方面,首先提供了一种模型训练方法,所述方法包括:
确定待训练的图像分类模型;其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围;
获取样本图像以及所述样本图像的标注信息;其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别;
基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;
基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型;其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
可选的,所述基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络,包括:
将所述样本图像输入待训练的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的边界框的第一预测位置以及第一预测类别;
基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算所述图像分类模型的关于对象检测的损失值,作为第一损失值;
基于所述第一损失值,判断所述图像分类模型中的特征提取层以及检测网络是否收敛;如果收敛,结束对所述特征提取层以及检测网络的训练,得到训练完成的特征提取层以及检测网络;如果否,调整所述图像分类模型中的特征提取网络以及检测网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可选的,所述基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型,包括:
将所述样本图像输入训练中的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别;
基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算所述图像分类模型的关于对象分割的损失值,作为第二损失值;
基于所述第二损失值,判断所述图像分类模型中的分割网络是否收敛;如果收敛,结束对所述分割网络的训练,得到训练完成的分割网络,以训练完成所述图像分类模型;如果否,调整所述分割网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可选的,所述第二标注信息的获取方式包括:将所述样本图像以及第一标注信息输入预先训练完成的图像分割模型中,以使所述图像分割模型利用所获取的样本图像以及第一标注信息,生成所述样本图像中样本对象的第二标注信息;其中,所述图像分割模型为用于对图像进行语义分割的模型。
可选的,所述图像分类模型中的每一检测网络还用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述第一预测位置的位置置信度;
所述基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算损失值,作为第一损失值,包括:
利用IOU损失函数,对所述第一预测位置和所述第一标注信息所包括的真实位置进行处理,计算所述检测网络的位置损失值;
利用二值交叉熵损失函数,对所述第一预测类别和所述第一标注信息所包括的真实类别进行处理,计算所述检测网络的类别损失值,以及对所述位置置信度以及所述位置置信度的真值进行处理,计算出所述检测网络的置信度损失值;
基于所述检测网络的位置损失值、类别损失值以及置信度损失值,计算所述图像分类模型的综合损失值,作为第一损失值。
在本发明实施例的第二方面,还提供了一种模型训练装置,所述装置包括:
确定模块,用于确定待训练的图像分类模型;其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围;
获取模块,用于获取样本图像以及所述样本图像的标注信息;其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别;
第一训练模块,用于基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;
第二训练模块,用于基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型;其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
可选的,所述第一训练模块包括:
第一输入单元,用于将所述样本图像输入待训练的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的边界框的第一预测位置以及第一预测类别;
第一计算单元,用于基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算所述图像分类模型的关于对象检测的损失值,作为第一损失值;
第一判断单元,用于基于所述第一损失值,判断所述图像分类模型中的特征提取层以及检测网络是否收敛;如果收敛,结束对所述特征提取层以及检测网络的训练,得到训练完成的特征提取层以及检测网络;如果否,调整所述图像分类模型中的特征提取网络以及检测网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可选的,所述第二训练模块包括:
第二输入单元,用于将所述样本图像输入训练中的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别;
第二计算单元,用于基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算所述图像分类模型的关于对象分割的损失值,作为第二损失值;
第二判断单元,用于基于所述第二损失值,判断所述图像分类模型中的分割网络是否收敛;如果收敛,结束对所述分割网络的训练,得到训练完成的分割网络,以训练完成所述图像分类模型;如果否,调整所述分割网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
在本发明实施例的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述模型训练方法。
在本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。
本发明实施例有益效果:
本发明实施例提供的一种模型训练方法,可以确定待训练的图像分类模型,该图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,然后获取包含样本对象的样本图像以及样本图像的标注信息;其中,标注信息包括第一标注信息以及第二标注信息;由于检测网络存在多个,并且每一检测网络各自对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围,从而,特征提取层可以提取输入至图像分类模型中的样本图像的多种尺寸的特征图,每一检测网络可以基于特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;由于第一标注信息包括样本对象在样本图像中的边界框的真实位置以及真实类别,并且检测网络可以确定样本对象的边界框的第一预测位置以及第一预测类别,从而,基于样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,可以得到训练完成的特征提取层以及检测网络;由于分割网络可以基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定样本图像中样本对象的像素区域的第二预测位置和第二预测类别,并且第二标注信息包括样本对象在样本图像中的像素区域的真实位置以及样本对象的真实类别,从而,基于样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,可以得到训练完成的分割网络,以训练完成图像分类模型。本方案中通过训练特征提取层以及检测网络,得到训练完成的特征提取层以及检测网络,再利用训练完成的特征提取层提取特征图,训练分割网络,以实现快速地训练出能够输出属于对象检测以及对象分割的多种形式的分类结果的模型,并且,通过特征提取层提取到多种尺寸的特征图,每一检测网络可以基于属于该检测网络预设的尺寸的特征图,进行检测网络的训练,可以提高模型训练的准确率。可见,本方案可以在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本发明实施例所提供的一种模型训练方法的流程示意图;
图2为本发明实施例所提供的步骤S103的具体实现方式的流程示意图;
图3为本发明实施例所提供的步骤S104的具体实现方式的流程示意图;
图4为本发明实施例所提供的一种图像分类方法的流程示意图;
图5为本发明实施例所提供的一种图像分类模型中的特征提取层的原理示意图;
图6为本发明实施例所提供的另一种图像分类模型中的特征提取层的原理示意图;
图7为本发明实施例所提供的一种图像分类模型中的检测网络的原理示意图;
图8为本发明实施例所提供的一种图像分类模型中的分割网络的原理示意图;
图9为本发明实施例所提供的一种图像分类模型的结构示意图;
图10为本发明实施例所提供的一种模型训练装置的结构示意图;
图11为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本发明所获得的所有其他实施例,都属于本发明保护的范围。
为了更好地了解本发明实施例,下面首先对相关技术进行介绍。
相关技术中,在计算机视觉技术领域,针对图像中的对象进行识别的过程通常是对图像中的对象应用对象检测方式或者对象分割方式,以精准提取并识别图像中的对象。在传统的对象检测方式中,通常使用对象检测模型,通过边界框定位图像中的对象,检测出各边界框中对象的类别;在传统的对象分割方式中,通常使用对象分割模型,标注图像的各个像素的类别,以像素级别的标注来分割图像中的各个对象,形成图像中各个对象的精确轮廓,由于对象分割方式中针对每一像素进行处理,从而,相较于对象检测方式而言,对象分割方式的分类结果更精准,计算量和存储量较大。
然而,在一些特定场景中,比如,在实时应用或者计算资源受限的场景中,对象检测方式可以以较低的资源需求,实现对图像中的目标进行定位和分类,然而对象检测方式的分类结果的准确度不够高,对象分割方式可以以像素级别的标注分割图像中的对象与背景,实现对图像中的对象进行高准确度的定位和分类,然而,对象分割方式有较高的资源需求。若需要兼顾对象检测方式与对象分割方式两种方式的优点,为用户提供多种形式的分类结果,则相关技术中需要分别针对对象检测模型以及对象分割模型进行训练以用于生成不同形式的分类结果。传统的对象检测方式和对象分割方式通常利用两个独立的对象检测模型与对象分割模型,这两个模型需要分别训练以及部署,这增加了模型的复杂性以及计算成本,在实时应用或计算资源受限的场景中,模型的运行存在障碍,并且两个独立的模型无法共享特征与模型训练所需的标注信息,难以综合考虑对象分割与对象检测两个针对图像进行处理的任务的关系,无法实现良好的性能。
为了在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升,本发明实施例提供了一种模型训练方法、装置、电子设备及存储介质。
下面首先对本发明实施例所提供的一种模型训练方法进行介绍。
其中,本发明实施例所提供的一种模型训练方法可以应用于电子设备,并且该电子设备具体用于训练模型,在具体应用中,该电子设备可以是智能手机、平板电脑等等,这都是合理的。
其中,本发明实施例所提供的一种模型训练方法,可以包括如下步骤:
确定待训练的图像分类模型;其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围;
获取样本图像以及所述样本图像的标注信息;其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别;
基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;
基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型;其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
本发明实施例提供的一种模型训练方法,可以确定待训练的图像分类模型,该图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,然后获取包含样本对象的样本图像以及样本图像的标注信息;其中,标注信息包括第一标注信息以及第二标注信息;由于检测网络存在多个,并且每一检测网络各自对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围,从而,特征提取层可以提取输入至图像分类模型中的样本图像的多种尺寸的特征图,每一检测网络可以基于特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;由于第一标注信息包括样本对象在样本图像中的边界框的真实位置以及真实类别,并且检测网络可以确定样本对象的边界框的第一预测位置以及第一预测类别,从而,基于样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,可以得到训练完成的特征提取层以及检测网络;由于分割网络可以基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定样本图像中样本对象的像素区域的第二预测位置和第二预测类别,并且第二标注信息包括样本对象在样本图像中的像素区域的真实位置以及样本对象的真实类别,从而,基于样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,可以得到训练完成的分割网络,以训练完成图像分类模型。本方案中通过训练特征提取层以及检测网络,得到训练完成的特征提取层以及检测网络,再利用训练完成的特征提取层提取特征图,训练分割网络,以实现快速地训练出能够输出属于对象检测以及对象分割的多种形式的分类结果的模型,并且,通过特征提取层提取到多种尺寸的特征图,每一检测网络可以基于属于该检测网络预设的尺寸的特征图,进行检测网络的训练,可以提高模型训练的准确率。可见,本方案可以在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
下面结合附图介绍本发明实施例所提供的一种模型训练方法。
图1为本发明实施例提供的一种模型训练方法的流程示意图,如图1所示,该方法可以包括步骤S101-S104。
S101,确定待训练的图像分类模型。
其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围。
可以理解的是,可以确定待训练的图像分类模型的网络结构,具体的,所确定的图像分类模型可以包含特征提取层、检测网络以及分割网络,其中,特征提取层用于提取被输入至图像分类模型的图像的特征图,检测网络用于进行对象检测,并且在图像分类模型中检测网络的数量可以有多个,分割网络用于进行对象分割。示例性的,可以在用于进行对象检测的图像检测模型上,添加用于进行对象分割的分割网络,获得图像分类模型,比如,在YOLOX检测模型的基础上,添加用于实现语义分割任务的分割模块。
需要说明的是,特征提取层可以提取多个不同尺寸的特征图,不同尺寸的特征图用于识别不同的尺寸范围的对象,示例性的,特征提取层可以提取80*80、40*40以及20*20这三个尺寸不同的特征图,锚框或感受野可以表征特征图中的像素点受原图多大区域的影响,80*80的特征图的锚框或感受野的大小通常在16*16到128*128之间,40*40的特征图的锚框或感受野的大小通常在128*128到256*256之间,20*20的特征图的锚框或感受野的大小通常在256*256到512*512之间,80*80的特征图用于识别尺寸范围1的对象,40*40的特征图用于识别尺寸范围2的对象,20*20的特征图用于识别尺寸范围3的对象,其中,针对各个尺寸范围,尺寸范围1小于尺寸范围2小于尺寸范围3,比如,尺寸范围1的对象可以是人脸、小型动物、大型物体中的小组件等,尺寸范围2的对象可以是人、车辆、中型动物等,尺寸范围3的对象可以是大型车辆、建筑物、大型景观等。相应的,为了针对多个特征图进行对象检测,图像分类模型中包括多个检测网络,并且每一特征图所包含的对象的尺寸范围可以作为检测网络的对应的目标尺寸范围,比如,图像分类模型存在三个检测网络A、B与C,检测网络A所检测的对象的尺寸范围为80*80,检测网络B所检测的对象的尺寸范围为40*40,检测网络C所检测的对象的尺寸范围为20*20,那么检测网络A对应80*80的目标尺寸范围,检测网络B对应40*40的目标尺寸范围,检测网络C对应20*20的目标尺寸范围。
S102,获取样本图像以及所述样本图像的标注信息。
其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别。
可以理解的是,可以获取用于训练模型的样本图像以及样本图像的标注信息,其中,样本图像包含样本对象,标注信息包括:第一标注信息以及第二标注信息。
需要说明的是,标注信息可以是预先获取的、针对样本图像中样本对象进行标注的信息。示例性的,工作人员在样本图像中手动选中样本对象,将被选中样本对象的位置以及类别作为样本图像的标注信息。
需要说明的是,在对象检测的过程中,需要通过边界框定位图像中的对象,识别边界框中的对象的类别,从而,为了训练检测网络,可以获取包括样本对象在样本图像中的边界框的真实位置以及真实类别的第一标注信息。同样的,在对象分割的过程中,需要标注出图像中各个像素的类别,从而,为了训练分割网络,可以获取包括样本对象在样本图像中的像素区域的真实位置以及真实类别的第二标注信息。
可选的,在一种实现方式中,所述第二标注信息的获取方式包括:
将所述样本图像以及第一标注信息输入预先训练完成的图像分割模型中,以使所述图像分割模型利用所获取的样本图像以及第一标注信息,生成所述样本图像中样本对象的第二标注信息;其中,所述图像分割模型为用于对图像进行语义分割的模型。
可以理解的是,样本图像以及第一标注信息可以是人工预先对样本图像进行标注所获得的,可以将样本图像以及第一标注信息输入至预先训练完成的图像分割模型中,由于图像分割模型为用于对图像进行语义分割的模型,从而,图像分割模型可以利用样本图像以及第一标注信息,直接生成样本图像的第二标注信息。其中,第二标注信息为对象分割任务所需要的标注信息,可以表征图像中对象的像素区域,第二标注信息也可以称为掩码标注信息。
示例性的,预先训练完成的图像分割模型可以是分割一切模型(SegmentAnything Model,SAM),将样本图像以及第一标注信息输入至分割一切模型中,分割一切模型可以输出样本图像中样本对象的掩码标注,也就是第二标注信息。
本方案中,通过将所获取的样本图像以及第一标注信息输入至预先训练完成的图像分割模型,直接获取样本图像的第二标注信息,无需人工再对样本图像进行关于对象分割任务的标注,避免了人工参与分割标注的获取过程,提高了第二标注信息的准确性,并且,第一标注信息与第二标注信息同属于样本图像,基于第一标注信息,获取第二标注信息,可以借助第一标注信息本身所确定的真实位置以及真实类别,更关注于样本图像以及样本对象的特征,进一步提高第二标注信息的准确性,以提高模型训练的准确性。
S103,基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络。
其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别。
可以理解的是,可以暂时停止图像分类模型中分割网络的功能,将样本图像输入图像分类模型,基于样本图像以及第一标注信息,直接对特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络。
需要说明的是,在训练过程中,特征提取层可以提取样本图像中的图像特征,然后对所提取的图像特征进行融合,生成多种尺寸的特征图。多个检测网络可以分别对多个尺寸的特征图进行处理,针对每一检测网络而言,该检测网络可以基于属于针对该检测网络预设的尺寸的特征图,确定属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别,也就是确定出属于对象检测任务的预测检测结果,然后基于预测检测结果与第一标注信息可以实现对检测网络以及特征提取层的训练。
需要说明的是,不同尺寸的特征图可以专注于不同尺寸范围的对象,提取到更多有效的特征,从而,在多个检测网络对不同尺寸的特征图分别进行处理的过程中,每一检测网络可以基于该检测网络预设的尺寸的特征图所包含的对象的特征,确定预测检测结果。
本方案中,通过特征提取层提取到多个不同尺寸的特征图,针对不同尺寸的特征图所关注的该尺寸的对象所包含的特征,利用检测网络进行对象检测,可以提高预测检测结果的准确率,增加了所训练的图像分类模型的准确率。
需要说明的是,为了方案清楚以及布局清晰,下文通过其他实施例介绍对待训练的图像分类模型中的特征提取层以及检测网络进行训练的具体方式。
S104,基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型。
其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
可以理解的是,在特征提取层以及检测网络训练完成后,可以暂时停止检测网络的功能,将样本图像输入图像分类模型,利用已经训练完成的特征提取层,直接将对分割网络进行训练。
需要说明的是,训练完成的特征提取层可以准确提取出样本图像的多种尺寸的特征图,分割网络可以对多种尺寸的特征图进行处理得到样本对象与背景分割开的mask图,该mask图与样本图像大小一致,但在mask图中样本对象所在的像素区域是被标注出来的。
需要强调的是,本实施例中,可以先训练特征提取层与检测网络,再训练分割网络,该过程并非是模型中不同网络结构的简单训练,本实施例的方案是:基于具有少量资源需求的检测网络,将特征提取层与检测网络放在一起,在高效率的情况下,完成对特征提取层以及检测网络的训练,然后再基于训练完成的特征提取层对分割网络进行训练,实现高效率地训练图像分类模型。
需要说明的是,为了方案清楚以及布局清晰,下文通过其他实施例介绍对训练中的图像分类模型中的分割网络进行训练的具体方式。
本发明实施例提供的一种模型训练方法,可以确定待训练的图像分类模型,该图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,然后获取包含样本对象的样本图像以及样本图像的标注信息;其中,标注信息包括第一标注信息以及第二标注信息;由于检测网络存在多个,并且每一检测网络各自对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围,从而,特征提取层可以提取输入至图像分类模型中的样本图像的多种尺寸的特征图,每一检测网络可以基于特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;由于第一标注信息包括样本对象在样本图像中的边界框的真实位置以及真实类别,并且检测网络可以确定样本对象的边界框的第一预测位置以及第一预测类别,从而,基于样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,可以得到训练完成的特征提取层以及检测网络;由于分割网络可以基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定样本图像中样本对象的像素区域的第二预测位置和第二预测类别,并且第二标注信息包括样本对象在样本图像中的像素区域的真实位置以及样本对象的真实类别,从而,基于样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,可以得到训练完成的分割网络,以训练完成图像分类模型。本方案中通过训练特征提取层以及检测网络,得到训练完成的特征提取层以及检测网络,再利用训练完成的特征提取层提取特征图,训练分割网络,以实现快速地训练出能够输出属于对象检测以及对象分割的多种形式的分类结果的模型,并且,通过特征提取层提取到多种尺寸的特征图,每一检测网络可以基于属于该检测网络预设的尺寸的特征图,进行检测网络的训练,可以提高模型训练的准确率。可见,本方案可以在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
可选的,如图2所示,在另一种实施例中,在图1所示的模型训练方法中,步骤S103可以包括步骤S1031-S1033。
S1031,将所述样本图像输入待训练的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的边界框的第一预测位置以及第一预测类别。
可以理解的是,可以将样本图像输入图像分类模型中,由于图像分类模型中的分割网络的功能已被暂时关闭,从而,图像分类模型中能够运行的网络结构包括:特征提取层与检测网络,特征提取层可以从样本图像中提取多个尺寸的特征图,每一检测网络可以对特征图进行处理,生成样本图像中样本对象的边界框的第一预测位置以及第一预测类别。
S1032,基于所述第一预测位置和第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算所述图像分类模型的关于对象检测的损失值,作为第一损失值。
可以理解的是,可以在图像分类模型确定第一预测位置以及第一预测类别后,可以利用所确定的第一预测位置以及第一预测类别,与前述步骤所获取的第一标注信息所包括的真实位置以及真实类别进行差异化的比较,确定第一预测位置和真实位置的差异,以及第一预测类别和真实类别的差异,然后基于差异,计算图像分类模型关于对象检测的损失值,作为第一损失值。计算损失值时所利用的损失函数可以存在多种,本申请对此不做限定。
可选的,在确定第一预测类别的过程中,检测网络可以预测出的对象的多种类别以及每一类别对应的类别置信度,其中,每一类别对应的类别置信度可以表征所预测出对象为该类别的概率,将各个类别按照类别置信度的大小进行排列,将最大的类别置信度对应的类别,作为第一预测类别。需要说明的是,本方案中,第一预测类别的确定方式仅做举例说明,不做具体限定。
可选的,在一种实现方式中,所述图像分类模型中的每一检测网络还用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述第一预测位置的位置置信度。
可以理解的是,每一检测网络针对属于该检测网络预设尺寸的特征图进行处理时,还可以确定第一预测位置的位置置信度,其中,位置置信度可以表征样本对象在第一预测位置的概率。
所述基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算损失值,作为第一损失值,可以包括步骤A1-A3。
A1,利用IOU损失函数,对所述第一预测位置和所述第一标注信息所包括的真实位置进行处理,计算所述检测网络的位置损失值。
可以理解的是,可以利用IOU(Intersection Over Union,交互比)损失函数,对第一预测位置和第一标注信息所包括的真实位置进行处理,计算检测网络的位置损失值。示例性的,IOU损失函数为:Lreg=1-IOU2,其中,Lreg为位置损失值,IOU表征第一预测位置与真实位置的交互比,由于第一预测位置为边界框的预测位置,真实位置为边界框的真实位置,从而,IOU表征预测的边界框与真实的边界框的交互比,交集为预测的边界框与真实的边界框的交集,并集为预测的边界框与真实的边界框的并集。
A2,利用二值交叉熵损失函数,对所述第一预测类别和所述第一标注信息所包括的真实类别进行处理,计算所述检测网络的类别损失值,以及对所述位置置信度以及所述位置置信度的真值进行处理,计算出所述检测网络的置信度损失值。
可以理解的是,可以利用二值交叉熵损失函数,对第一预测类别和第一标注信息所包括的真实类别进行处理,计算检测网络的类别损失值;并且,可以利用二值交叉熵损失函数,对位置置信度以及位置置信度的真值进行处理,计算出检测网络的置信度损失值。
示例性的,二值交叉熵损失函数为:L=-(1-y)log(1-x)-ylog(x),其中,L为损失值,y为真实值,x为预测值;在计算检测网络的类别损失值的过程中,二值交叉损失函数的公式为:Lcls=-(1-yc)log(1-xc)-yclog(xc),其中,Lcls为类别损失值,yc为第一标注信息所包括的真实类别,xc为第一预测类别;在计算检测网络的置信度损失值的过程中,二值交叉损失函数的公式为:Lobj=-(1-yo)log(1-xo)-yolog(xo),其中,Lobj为置信度损失值,yo为位置置信度的真值,xo为位置置信度。
A3,基于所述检测网络的位置损失值、类别损失值以及置信度损失值,计算所述图像分类模型的综合损失值,作为第一损失值。
可以理解的是,可以采用通用的损失函数,计算图像分类模型的综合损失值,示例性的,可以利用检测损失函数计算综合损失值,检测损失函数为:LD=Lreg+Lcls+Lobj,其中,LD为综合损失值,Lreg为位置损失值,Lcls为类别损失值,Lobj为置信度损失值。
S1033,基于所述第一损失值,判断所述图像分类模型中的特征提取层以及检测网络是否收敛;如果收敛,结束对所述特征提取层以及检测网络的训练,得到训练完成的特征提取层以及检测网络;如果否,调整所述图像分类模型中的特征提取网络以及检测网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可以理解的是,第一损失值可以反映出针对样本图像中样本对象的对象检测的结果准确程度,在第一损失值超过第一预设损失阈值的情况下,可以认为对象检测的结果准确程度不高,此时调整图像分类模型中的特征提取层以及检测网络的网络参数,返回获取样本图像以及所述样本图像的标注信息,以实现对图像分类模型中的特征提取层以及检测网络的不断训练。示例性的,可以基于反向传播算法,经过多次迭代,更新网络参数,优化图像分类模型中的特征提取层以及检测网络。
需要说明的是,若损失值未超过第一预设损失阈值,则可以认为对象检测的结果准确程度是符合预期的,也就是图像分类模型能够准确地执行对象检测任务,此时获得训练完成的特征提取层以及检测网络。
示例性的,在特征提取层以及检测网络的训练过程中,可以使用迁移学习的方式,使用预训练好的网络参数作为初始权重,迭代训练n次,学习率设置为r,比如,可以设置n=30,r=0.001,若第一损失值趋于平稳,也就是第一损失值未超过第一预设损失阈值,可以判断特征提取层以及检测网络收敛。
本方案中,通过基于第一预测位置和第一标注信息所包括的真实位置的差异,以及第一预测类别和第一标注信息所包括的真实类别的差异,计算第一损失值,利用第一损失值对图像分类模型中的特征提取层以及检测网络进行训练,可以提高图像分类模型中的特征提取层以及检测网络的训练准确性。
可选的,如图3所示,在又一实施例中,在图1所示的模型训练方法的基础上,步骤S104可以包括步骤S1041-S1043。
S1041,将所述样本图像输入训练中的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
可以理解的是,在图像分类模型中的特征提取层以及检测网络训练完成后,可以暂停检测网络的功能,利用训练完成的特征提取层提取所输入的样本图像的特征图,分割网络可以确定样本图像中样本对象的像素区域的第二预测位置以及第二预测类别。
需要说明的是,图像分类模型可以针对样本图像,对样本图像中各个像素点进行类别识别,从而,确定样本图像中属于样本对象的像素点,所确定的像素点构成样本图像中样本对象的像素区域,将所确定的像素点的位置作为第二预测位置,将所确定的像素点的类别作为第二预测类别,可选的,针对样本图像中每一像素点,可以确定该像素点为各个类别的概率,将概率最高的类别作为该像素点的类别。
S1042,基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算所述图像分类模型的关于对象分割的损失值,作为第二损失值。
可以理解的是,在计算图像分类模型关于对象分割的损失值的过程中,可以利用预设的分类损失函数,对第二预测位置和第二标注信息所包括的真实位置以及第二预测类别和第二标注信息所包括的真实类别进行处理,得到第二损失值。
需要说明的是,所确定的第二预测位置可以是样本对象在样本图像中的像素区域的预测位置,示例性的,第二预测位置可以是样本图像中类别为样本对象的像素点的位置,所确定的第二预测类别可以是样本对象的预测类别,其中,该预测概率为各个类别中,概率最高的类别;基于第二预测位置以及第二预测类别可以确定所预测的样本图像中样本对象的预测像素点,也就是说,通过第二预测位置和第二预测类别的确定,样本图像中的每个像素点的各个类别的预测概率是可以获知。可以理解的是,针对像素点而言,所设置的各个类别中可以包括表征属于背景的类别,以及在不属于背景时具体的对象类别。
并且,针对第二标注信息而言,由于第二标注信息中包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别,那么,样本图像中的各个像素点对于各个类别的真实概率也是可以获知的。
示例性的,分割损失函数可以为:其中,N为样本图像中像素点的数量,K为类别的数量,yik为第i个像素点第k个类别的真实概率,p(xik)为第i个像素点第k个类别的预测概率。
S1043,基于所述第二损失值,判断所述图像分类模型中的分割网络是否收敛;如果收敛,结束对所述分割网络的训练,得到训练完成的分割网络,以训练完成所述图像分类模型;如果否,调整所述分割网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可以理解的是,第二损失值可以反映出针对样本图像中样本对象的对象分割的结果准确程度,在第二损失值超过第二预设损失阈值的情况下,可以认为对象分割的结果准确程度不高,此时调整图像分类模型中的分割网络的网络参数,返回获取样本图像以及所述样本图像的标注信息,以实现对图像分类模型中的分割网络的不断训练。示例性的,可以基于反向传播算法,经过多次迭代,更新网络参数,优化图像分类模型中的分割网络。
需要说明的是,若损失值未超过第二预设损失阈值,则可以认为对象分割的结果准确程度是符合预期的,也就是图像分类模型能够准确地执行对象分割任务,此时获得训练完成的分割网络。
示例性的,可以使用训练完完成的特征提取层的网络参数,保留特征提取层的网络参数,比如特征融合的权重,单独训练分割网络,迭代训练n次,比如,可以设置n=30,若第二损失值趋于平稳,比如,第二损失值未超过第二预设损失阈值,可以判断分割网络收敛。
本方案中,通过基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算第二损失值,利用第二损失值对图像分类模型中的分割网络进行训练,可以提高图像分类模型中的分割网络的训练准确性。
为了更好地了解本发明实施例提供的模型训练方法,下面将结合图4介绍利用本发明实施例提供的模型训练方法所训练出的图像分类模型,所进行的图像分类方法的流程。
如图4所示,图像分类方法可以包括四个过程:准备数据、获取标注、分阶段训练以及图像预测。
在准备数据过程中,工作人员在样本图像中手动选中样本对象的边界框,被选中样本对象的位置以及类别作为样本图像的第一标注信息,将样本图像以及第一标注信息输入预先训练完成的图像分割模型中,以使图像分割模型利用所获取的样本图像以及第一标注信息,生成样本图像中样本对象的第二标注信息,完成数据准备。
在获取标注阶段中,电子设备可以直接准备数据阶段所准备的数据,获取样本图像、第一标注信息以及第二标注信息,完成标注获取。
在分阶段训练过程中,基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;基于样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成图像分类模型。
在图像预测过程中,利用训练完成的图像分类模型,对新的图像进行预测,将图像输入图像分类模型中,由共享的特征提取层提取出特征图,检测网络与分割网络分别利用特征图输出检测结果以及分割结果。
本方案中,通过图像分割模型对样本图像以及第一标注信息处理,生成属于对象分割的第二标注信息,减少了人工标注的工作量,利用第一标注信息所包含的真实位置以及真实类别生成第二标注信息,充分利用了第一标注信息,综合考虑了对象检测任务与对象分割任务之间的位置以及类别的关系,提高了第二标注信息的准确性;并且,在图像分类模型中,检测网络与分割网络共享特征提取层,在提供全面的检测结果与分割结果的同时,减少了额外的特征提取层的训练以及特征提取的过程,减少了额外的资源需求,提高了训练与应用图像分类模型的效率。
为了更好地了解本发明实施例提供的模型训练方法,下面将结合图5介绍图像分类模型中的特征提取层的原理。
如图5所示,向特征提取层输入图像,特征提取层可以包括骨干网络和特征融合结构,骨干网络可以提取所输入的图像的特征,特征融合结构可以对骨干网络所提取的特征进行融合处理,以生成三张不同尺寸的特征图。
需要说明的是,特征提取层中的骨干网络可以由Focus模块、多个CBS(conv-bn-silu,二维卷积提取)模块、多个CSPLayer(convolutionv-silu-batch-norm layer,卷积激活归化层)模块以及SPP(Spatial Pyramid Pooling,空间金字塔池化)模块组成;其中,Focus模块也可以称为图片切片模块,用于对图像进行下采样处理,获取图像的初始信息;CBS模块也可以是称为二维卷积提取模块,用于提取图像中的特征信息,CBS模块包括一个batch norm(归一化)层以及SiLu(Sigmoid-weighted Linear Unit,加权线性单元)激活函数层,batch norm层用于对数据进行标准化处理,SiLu激活函数层用于对数据进行非线性映射处理;CSPLayer模块为符合残差结构,用于提取特征层特征信息;SPP模块,用于通过不同的池化核大小的最大池化来进行特征提取,增大网络结构的感受野;Concat用于拼接多个通道的网络。其中,如图6所示,CSPLayer模块可以包括主干部分、残差部分、Concat模块以及CBS模块,CSPLayer模块的主干部分可以包含两个CBS模块,残差部分可以包含一个CBS模块。
特征提取层中的特征融合结构可以由多个Concat模块、多个Upsample(上采样)模块、多个CBS模块、多个CSPLayer模块以及多个Downsample(下采样)模块组成,其中,Upsample用于对特征层进行上采样处理;Downsample用于对特征层进行下采样处理,与前述骨干网络相比,Concat模块、CBS模块以及CSPLayer模块在特征融合结构中的作用类似,此处不作过多赘述。
本方案中,通过特征提取层的特殊结构输出三个不同尺寸的特征图,为后续检测网络以及分割网络基于特征图进行对象检测与对象分割提供基础。
为了更好地了解本发明实施例提供的模型训练方法,下面将结合图7介绍图像分类模型中的检测网络的原理。
如图7所示,图像分类模型中的检测网络包括卷积块、卷积层、归一化层以及ReLU(Rectified Linear Unit,线性整流函数)激活函数,其中,卷积块用于对特征图进行特征提取,归一化层用于对特征层的值进行归一化处理,ReLU激活函数用于增加网络的非线性。卷积块可以包括一个卷积层、一个归一化层以及一个ReLU激活函数。
可以理解的是,本实施例中,图像分类模型中的检测网络通过对特征图进行处理获得对象的类别、对象在图像中的位置以及位置置信度。
本方案中,通过检测网络的结构,实现利用图像分类模型进行对象检测任务的处理。
为了更好地了解本发明实施例提供的模型训练方法,下面将结合图8介绍图像分类模型中的分割网络的原理。
如图8所示,分割网络包括N个卷积块、Dropout(舍弃)模块、卷积层以及上采样模块,其中,卷积块可以包括一个卷积层、一个归一化层以及一个ReLU激活函数。其中,Dropout模块用于对特征层进行随机失活处理,以缓解过拟合的情况。
可以理解的是,将尺寸范围为80*80的特征图1、尺寸范围为40*40的特征图2以及尺寸范围为20*20的特征图3,输入到分割网络中,分别利用卷积块、Dropout模块、卷积层以及上采样模块对特征图进行处理,然后将三个特征图经过处理后的结果融合为尺寸范围为640*640的、对象与背景分割开的分割结果。
本方案中,通过分割网络的结构,实现利用图像分类模型进行对象分割任务的处理。
为了更好地了解本发明实施例提供的模型训练方法,下面将结合图9介绍图像分类模型的结构。
如图9所示,图像分类模型包括由骨干网络以及特征融合层组成的特征提取层、检测网络以及分割网络。
可以理解的是,在图像分类模型的训练过程中,特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
需要说明的是,应用本发明实施例所提供的模型训练方法所训练得到的图像分类模型可以应用针对图像进行分类任务的多种场景,下面将举例说明:
第一,实时物体识别和分割场景。
在该场景下,通过将分割和检测合并为一个网络,可以同时实现物体的识别和分割,从而更高效地提取目标信息。
第二,自动驾驶场景。
在自动驾驶领域,分割和检测一体的网络可以帮助车辆感知和理解周围环境,识别道路、车辆、行人等不同目标,并生成精准的分割结果。
第三,医学图像分析场景。
在医学图像领域,结合分割和检测的网络可以提供更准确的病灶区域定位和分割,辅助医生进行疾病诊断和治疗决策。
第四,智能安防监控场景。
通过将分割和检测结合,可以实现智能安防监控系统,实时监测和识别出关键目标,如人员、车辆、异常行为等,并提供精准的目标分割和检测结果。
需要说明的是,上述应用场景的描述仅做举例说明,并不做具体限定。
本发明实施例提供的一种模型训练方法,可以确定待训练的图像分类模型,该图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,然后获取包含样本对象的样本图像以及样本图像的标注信息;其中,标注信息包括第一标注信息以及第二标注信息;由于检测网络存在多个,并且每一检测网络各自对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围,从而,特征提取层可以提取输入至图像分类模型中的样本图像的多种尺寸的特征图,每一检测网络可以基于特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;由于第一标注信息包括样本对象在样本图像中的边界框的真实位置以及真实类别,并且检测网络可以确定样本对象的边界框的第一预测位置以及第一预测类别,从而,基于样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,可以得到训练完成的特征提取层以及检测网络;由于分割网络可以基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定样本图像中样本对象的像素区域的第二预测位置和第二预测类别,并且第二标注信息包括样本对象在样本图像中的像素区域的真实位置以及样本对象的真实类别,从而,基于样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,可以得到训练完成的分割网络,以训练完成图像分类模型。本方案中通过训练特征提取层以及检测网络,得到训练完成的特征提取层以及检测网络,再利用训练完成的特征提取层提取特征图,训练分割网络,以实现快速地训练出能够输出属于对象检测以及对象分割的多种形式的分类结果的模型,并且,通过特征提取层提取到多种尺寸的特征图,每一检测网络可以基于属于该检测网络预设的尺寸的特征图,进行检测网络的训练,可以提高模型训练的准确率。可见,本方案可以在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
基于前述的模型训练方法,本发明实施例还提供了一种模型训练装置,如图10所示,该装置包括:
确定模块1010,用于确定待训练的图像分类模型;其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围;
获取模块1020,用于获取样本图像以及所述样本图像的标注信息;其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别;
第一训练模块1030,用于基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;
第二训练模块1040,用于基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型;其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
可选的,所述第一训练模块包括:
第一输入单元,用于将所述样本图像输入待训练的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的边界框的第一预测位置以及第一预测类别;
第一计算单元,用于基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算所述图像分类模型的关于对象检测的损失值,作为第一损失值;
第一判断单元,用于基于所述第一损失值,判断所述图像分类模型中的特征提取层以及检测网络是否收敛;如果收敛,结束对所述特征提取层以及检测网络的训练,得到训练完成的特征提取层以及检测网络;如果否,调整所述图像分类模型中的特征提取网络以及检测网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可选的,所述第二训练模块包括:
第二输入单元,用于将所述样本图像输入训练中的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别;
第二计算单元,用于基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算所述图像分类模型的关于对象分割的损失值,作为第二损失值;
第二判断单元,用于基于所述第二损失值,判断所述图像分类模型中的分割网络是否收敛;如果收敛,结束对所述分割网络的训练,得到训练完成的分割网络,以训练完成所述图像分类模型;如果否,调整所述分割网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
可选的,所述第二标注信息的获取方式包括:
将所述样本图像以及第一标注信息输入预先训练完成的图像分割模型中,以使所述图像分割模型利用所获取的样本图像以及第一标注信息,生成所述样本图像中样本对象的第二标注信息;其中,所述图像分割模型为用于对图像进行语义分割的模型。
可选的,所述图像分类模型中的每一检测网络还用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述第一预测位置的位置置信度;
所述基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算损失值,作为第一损失值,包括:
利用IOU损失函数,对所述第一预测位置和所述第一标注信息所包括的真实位置进行处理,计算所述检测网络的位置损失值;
利用二值交叉熵损失函数,对所述第一预测类别和所述第一标注信息所包括的真实类别进行处理,计算所述检测网络的类别损失值,以及对所述位置置信度以及所述位置置信度的真值进行处理,计算出所述检测网络的置信度损失值;
基于所述检测网络的位置损失值、类别损失值以及置信度损失值,计算所述图像分类模型的综合损失值,作为第一损失值。
本发明实施例提供的一种模型训练方法,可以确定待训练的图像分类模型,该图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,然后获取包含样本对象的样本图像以及样本图像的标注信息;其中,标注信息包括第一标注信息以及第二标注信息;由于检测网络存在多个,并且每一检测网络各自对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围,从而,特征提取层可以提取输入至图像分类模型中的样本图像的多种尺寸的特征图,每一检测网络可以基于特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;由于第一标注信息包括样本对象在样本图像中的边界框的真实位置以及真实类别,并且检测网络可以确定样本对象的边界框的第一预测位置以及第一预测类别,从而,基于样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,可以得到训练完成的特征提取层以及检测网络;由于分割网络可以基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定样本图像中样本对象的像素区域的第二预测位置和第二预测类别,并且第二标注信息包括样本对象在样本图像中的像素区域的真实位置以及样本对象的真实类别,从而,基于样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,可以得到训练完成的分割网络,以训练完成图像分类模型。本方案中通过训练特征提取层以及检测网络,得到训练完成的特征提取层以及检测网络,再利用训练完成的特征提取层提取特征图,训练分割网络,以实现快速地训练出能够输出属于对象检测以及对象分割的多种形式的分类结果的模型,并且,通过特征提取层提取到多种尺寸的特征图,每一检测网络可以基于属于该检测网络预设的尺寸的特征图,进行检测网络的训练,可以提高模型训练的准确率。可见,本方案可以在保证能够提供不同形式的分类结果的情况下,兼顾模型训练效率的提升以及准确率的提升。
本发明实施例还提供了一种电子设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现前述模型训练方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一模型训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种模型训练方法,其特征在于,所述方法包括:
确定待训练的图像分类模型;其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围;
获取样本图像以及所述样本图像的标注信息;其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别;
基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;
基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型;其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
2.根据权利要求1所述的方法,其特征在于,
所述基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络,包括:
将所述样本图像输入待训练的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的边界框的第一预测位置以及第一预测类别;
基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算所述图像分类模型的关于对象检测的损失值,作为第一损失值;
基于所述第一损失值,判断所述图像分类模型中的特征提取层以及检测网络是否收敛;如果收敛,结束对所述特征提取层以及检测网络的训练,得到训练完成的特征提取层以及检测网络;如果否,调整所述图像分类模型中的特征提取网络以及检测网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
3.根据权利要求1所述的方法,其特征在于,所述基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型,包括:
将所述样本图像输入训练中的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别;
基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算所述图像分类模型的关于对象分割的损失值,作为第二损失值;
基于所述第二损失值,判断所述图像分类模型中的分割网络是否收敛;如果收敛,结束对所述分割网络的训练,得到训练完成的分割网络,以训练完成所述图像分类模型;如果否,调整所述分割网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述第二标注信息的获取方式包括:
将所述样本图像以及第一标注信息输入预先训练完成的图像分割模型中,以使所述图像分割模型利用所获取的样本图像以及第一标注信息,生成所述样本图像中样本对象的第二标注信息;其中,所述图像分割模型为用于对图像进行语义分割的模型。
5.根据权利要求2所述的方法,其特征在于,所述图像分类模型中的每一检测网络还用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述第一预测位置的位置置信度;
所述基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算损失值,作为第一损失值,包括:
利用IOU损失函数,对所述第一预测位置和所述第一标注信息所包括的真实位置进行处理,计算所述检测网络的位置损失值;
利用二值交叉熵损失函数,对所述第一预测类别和所述第一标注信息所包括的真实类别进行处理,计算所述检测网络的类别损失值,以及对所述位置置信度以及所述位置置信度的真值进行处理,计算出所述检测网络的置信度损失值;
基于所述检测网络的位置损失值、类别损失值以及置信度损失值,计算所述图像分类模型的综合损失值,作为第一损失值。
6.一种模型训练装置,其特征在于,所述装置包括:
确定模块,用于确定待训练的图像分类模型;其中,所述图像分类模型中包含有特征提取层、用于进行对象检测的检测网络以及用于进行对象分割的分割网络,所述检测网络的数量为多个,每一检测网络各自对应有目标尺寸范围,且所对应的目标尺寸范围为该检测网络所检测的对象的尺寸范围;
获取模块,用于获取样本图像以及所述样本图像的标注信息;其中,所述样本图像中包含样本对象,所述标注信息包括:第一标注信息以及第二标注信息;所述第一标注信息包括所述样本对象在所述样本图像中的边界框的真实位置以及样本对象的真实类别;所述第二标注信息包括所述样本对象在所述样本图像中的像素区域的真实位置以及所述样本对象的真实类别;
第一训练模块,用于基于所述样本图像以及第一标注信息,对待训练的图像分类模型中的特征提取层以及检测网络进行训练,得到训练完成的特征提取层以及检测网络;其中,所述特征提取层用于提取输入至所述图像分类模型中的样本图像的多种尺寸的特征图;每一检测网络用于基于所述特征提取层所提取的、属于针对该检测网络预设的尺寸的特征图,确定所述样本图像中的、属于该检测网络对应的目标尺寸范围的样本对象的边界框的第一预测位置以及第一预测类别;
第二训练模块,用于基于所述样本图像、第二标注信息以及训练完成的特征提取层,对训练中的图像分类模型中的分割网络进行训练,得到训练完成的分割网络,以训练完成所述图像分类模型;其中,所述分割网络用于基于训练完成的特征提取层所提取的、所述样本图像的多种尺寸的特征图,确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别。
7.根据权利要求6所述的装置,其特征在于,所述第一训练模块包括:
第一输入单元,用于将所述样本图像输入待训练的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的边界框的第一预测位置以及第一预测类别;
第一计算单元,用于基于所述第一预测位置和所述第一标注信息所包括的真实位置的差异,以及所述第一预测类别和所述第一标注信息所包括的真实类别的差异,计算所述图像分类模型的关于对象检测的损失值,作为第一损失值;
第一判断单元,用于基于所述第一损失值,判断所述图像分类模型中的特征提取层以及检测网络是否收敛;如果收敛,结束对所述特征提取层以及检测网络的训练,得到训练完成的特征提取层以及检测网络;如果否,调整所述图像分类模型中的特征提取网络以及检测网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
8.根据权利要求6所述的装置,其特征在于,所述第二训练模块包括:
第二输入单元,用于将所述样本图像输入训练中的图像分类模型中,以使所述图像分类模型确定所述样本图像中样本对象的像素区域的第二预测位置和第二预测类别;
第二计算单元,用于基于所述第二预测位置、第二预测类别,以及第二标注信息所包括的真实位置与真实类别,计算所述图像分类模型的关于对象分割的损失值,作为第二损失值;
第二判断单元,用于基于所述第二损失值,判断所述图像分类模型中的分割网络是否收敛;如果收敛,结束对所述分割网络的训练,得到训练完成的分割网络,以训练完成所述图像分类模型;如果否,调整所述分割网络的网络参数,并返回所述获取样本图像以及所述样本图像的标注信息的步骤。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292060.0A CN117475253A (zh) | 2023-10-08 | 2023-10-08 | 一种模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292060.0A CN117475253A (zh) | 2023-10-08 | 2023-10-08 | 一种模型训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117475253A true CN117475253A (zh) | 2024-01-30 |
Family
ID=89628276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311292060.0A Pending CN117475253A (zh) | 2023-10-08 | 2023-10-08 | 一种模型训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475253A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853490A (zh) * | 2024-03-06 | 2024-04-09 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、图像处理模型的训练方法 |
-
2023
- 2023-10-08 CN CN202311292060.0A patent/CN117475253A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853490A (zh) * | 2024-03-06 | 2024-04-09 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、图像处理模型的训练方法 |
CN117853490B (zh) * | 2024-03-06 | 2024-05-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、图像处理模型的训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN112381837B (zh) | 一种图像处理方法及电子设备 | |
CN106897738A (zh) | 一种基于半监督学习的行人检测方法 | |
CN112990211A (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN110176024B (zh) | 在视频中对目标进行检测的方法、装置、设备和存储介质 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN113642474A (zh) | 一种基于yolov5的危险区域人员监控方法 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
WO2019167784A1 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN111368636A (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
KR101963404B1 (ko) | 2-단계 최적화 딥 러닝 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체 및 딥 러닝 시스템 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN111709471A (zh) | 对象检测模型的训练方法以及对象检测方法、装置 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN114612755A (zh) | 一种火灾检测方法、系统、电子设备和可读存储介质 | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
CN113065379B (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
CN117475253A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
US11200455B2 (en) | Generating training data for object detection | |
CN117765480B (zh) | 一种道路沿线野生动物迁徙预警方法及系统 | |
CN111860623A (zh) | 基于改进ssd神经网络的统计树木数量的方法及系统 | |
CN113688810B (zh) | 一种边缘设备的目标捕获方法、系统及相关设备 | |
CN113743459B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN116071625A (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN115311680A (zh) | 人体图像质量检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |