CN111950572A - 训练分类器的方法、装置、电子设备和计算机可读存储介质 - Google Patents
训练分类器的方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111950572A CN111950572A CN201910401167.1A CN201910401167A CN111950572A CN 111950572 A CN111950572 A CN 111950572A CN 201910401167 A CN201910401167 A CN 201910401167A CN 111950572 A CN111950572 A CN 111950572A
- Authority
- CN
- China
- Prior art keywords
- training
- classifier
- residual block
- light category
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了一种训练分类器的方法,其特征在于,包括:获取图像集合,所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;确定分类器的输出项目,所述输出项目与所述光线类别信息对应;根据所述图像集合和MobileNetV2神经网络训练所述分类器。本公开实施例提供的训练分类器的方法、装置、电子设备和计算机可读存储介质,能够利用MobileNetV2神经网络高效地训练分类器,以识别输入图像的光线类别。
Description
技术领域
本公开涉及信息处理领域,尤其涉及一种训练分类器的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术的进步,与图像相关的应用愈发丰富,例如基于卷积神经网络的分类器能够用于对输入图像的识别和/或分类。
需要通过训练集合训练基于卷积神经网络的分类器(也称作卷积神经网络分类器),才能将分类器用于对输入的图像进行识别和/或分类。以识别输入的图像的类别为例,需要以大量的不同类别的图像作为训练集合来训练分类器,一个典型的训练分类器的过程包括对训练集合中的图像进行卷积层的计算、非线性层的计算、和/或池化层的计算,然后经过完全连接层计算出分类结果,可以认为上述卷积层、非线性层、池化层、以及完全连接层构成了卷积神经网络的结构。对于完全连接层计算出的分类结果,还需要将其与指示了图像的类别的标签信息进行比对以构造损失函数,在通过梯度下降等算法根据该损失函数更新训练过程中涉及的权重和偏置等参数之后,再根据更新后的参数重新计算分类结果,如此迭代,当计算出最优的分类结果则意味着分类器训练完成,从而通过该分类器可以识别输入的图像的类别,或者说可以对输入的图像进行分类。
但是卷积神经网络的结构往往比较复杂,针对不同的分类任务,现有技术没有教导如何选择合适的卷积神经网络来训练分类器。
发明内容
本公开实施例提供训练分类器的方法,装置,电子设备,和计算机可读存储介质,利用MobileNetV2神经网络高效地训练分类器,以识别输入图像的光线类别。
第一方面,本公开实施例提供一种训练分类器的方法,其特征在于,包括:获取图像集合,所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;确定分类器的输出项目,所述输出项目与所述光线类别信息对应;根据所述图像集合和MobileNetV2神经网络训练所述分类器。
进一步的,所述MobileNetV2神经网络包括十个Inverted residual block结构。
进一步的,所述十个Inverted residual block结构中的第一个Invertedresidual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为1。
进一步的,所述十个Inverted residual block结构中的第一个Invertedresidual block结构输出的特征向量的维度为16。
进一步的,所述十个Inverted residual block结构中的第二个到第九个Inverted residual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为4。
进一步的,所述十个Inverted residual block结构中的第二个和第三个Inverted residual block结构输出的特征向量的维度为16。
进一步的,所述十个Inverted residual block结构中的第四个到第六个Inverted residual block结构输出的特征向量的维度为32。
进一步的,所述十个Inverted residual block结构中的第七个和第八个Inverted residual block结构输出的特征向量的维度为48。
进一步的,所述十个Inverted residual block结构中的第九个和第十个Inverted residual block结构输出的特征向量的维度为64。
第二方面,本公开实施例提供一种训练分类器的装置,其特征在于,包括:图像集合获取模块,用于所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;确定模块,用于确定分类器的输出项目,所述输出项目与所述光线类别信息对应;训练模块,用于根据所述图像集合和MobileNetV2神经网络训练所述分类器。
进一步的,所述MobileNetV2神经网络包括十个Inverted residual block结构。
进一步的,所述十个Inverted residual block结构中的第一个Invertedresidual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为1。
进一步的,所述十个Inverted residual block结构中的第一个Invertedresidual block结构输出的特征向量的维度为16。
进一步的,所述十个Inverted residual block结构中的第二个到第九个Inverted residual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为4。
进一步的,所述十个Inverted residual block结构中的第二个和第三个Inverted residual block结构输出的特征向量的维度为16。
进一步的,所述十个Inverted residual block结构中的第四个到第六个Inverted residual block结构输出的特征向量的维度为32。
进一步的,所述十个Inverted residual block结构中的第七个和第八个Inverted residual block结构输出的特征向量的维度为48。
进一步的,所述十个Inverted residual block结构中的第九个和第十个Inverted residual block结构输出的特征向量的维度为64。
第三方面,本公开实施例提供一种电子设备,包括:存储器,用于存储计算机可读指令;以及与所述存储器耦合的一个或多个处理器,用于运行所述计算机可读指令,使得所述处理器运行时实现前述第一方面中的任一所述训练分类器的方法。
第四方面,本公开实施例提供一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行前述第一方面中的任一所述训练分类器的方法。
本公开公开了一种训练分类器的方法、装置、电子设备和计算机可读存储介质。其中所述训练分类器的方法,其特征在于,包括:获取图像集合,所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;确定分类器的输出项目,所述输出项目与所述光线类别信息对应;根据所述图像集合和MobileNetV2神经网络训练所述分类器。本公开实施例提供的训练分类器的方法、装置、电子设备和计算机可读存储介质,能够利用MobileNetV2神经网络高效地训练分类器,以识别输入图像的光线类别。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的训练分类器的方法实施例的流程图;
图2为本公开实施例涉及的Inverted residual block结构示意图;
图3为本公开实施例提供的训练分类器的装置实施例的结构示意图;
图4为根据本公开实施例提供的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图示中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本实施例提供的该训练分类器的方法可以由一个训练分类器的装置来执行,该装置可以实现为软件,可以实现为硬件,还可以实现为软件和硬件的组合,例如所述训练分类器的装置包括计算机设备,从而通过该计算机设备来执行本实施例提供的该训练分类器的方法,如本领域技术人员所理解的,计算机设备可以是台式或便携计算机设备,还可以是移动终端设备等。
图1为本公开实施例提供的训练分类器的方法实施例的流程图,如图1所示,本公开实施例的训练分类器的方法包括如下步骤:
步骤S101,获取图像集合,所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;
需要通过训练集合训练分类器,因此在步骤S101中获取图像集合作为训练集合以训练分类器。
本公开实施例提供的训练分类器的方法所训练的分类器能够识别输入图像的光线类别,或者说能够对输入图像的光线进行分类,因此所述图像集合中的图像与光线类别信息对应,从而在训练分类器的过程中,将分类结果与所述光线类别信息进行比对以构造损失函数,以便用于更新训练过程中涉及的权重和偏置等参数,完成训练过程。
其中,所述光线类别信息用于指示与所述光线类别信息对应的图像的光线类别。可选的,所述光线类别包括室内光线类别和室外光线类别。可选的,所述室内光线包括白光类别,黄光类别,昏暗光类别,所述室外光线包括晴天类别,阴天类别,黑夜类别。
步骤S102,确定分类器的输出项目,所述输出项目与所述光线类别信息对应;
如同本领域技术人员所理解的,作为训练集合的所述图像集合,其中的图像所对应的光线类别信息指示的光线类别的数量,与依此训练集合所训练的分类器的分类结果的输出项目具有对应关系,在通常情况下,分类器的分类结果的输出项目的数量等于步骤S101中获取的所述图像集合中的图像所对应的光线类别信息所指示的光线类别的数量,例如在步骤S101所获取的图像集合包括M个图像,所述M个图像各自对应的M个光线类别信息指示了N种光线类别(N为自然数),那么依此图像集合所训练处的分类器的分类结果包括N个输出项目。
作为一个示例,在步骤S101中获取的图像集合由两个子集合构成,其中一个子集合中的每个图像所对应的光线类别信息均指示室内光线类别,例如所述一个子集合中的每个图像均描绘了室内画面,并且所述一个子集合中的而每个图像对应的光线类别信息均指示室内光线类别,而另一个子集合中的每个图像所对应的光线类别信息均指示室外光线类别,例如所述另一个子集合中的每个图像均描绘了室外画面,并且所述另一个子集合中的而每个图像对应的光线类别信息均指示室外光线类别。在这个示例中,训练出的分类器的分类结果包括与室内光线类别对应的输出项目和与室外光线类别对应的输出项目共计两个输出项目,所述两个输出项目可以通过百分比的形式(例如对于一个输入图像,分类结果中与室内光线类别对应的输出项目为10%,与室外光线类别对应的输出项目为90%,注意分类结果的各输出项目的和为1,那么分类器将该输入图像分类为室外光线类别的图像)或者二进制值的形式(例如对于一个输入图像,分类结果中与室内光线类别对应的输出项目为1,与室外光线类别对应的输出项目为0,那么分类器将该输入图像分类为室内光线类别的图像)等指示对输入图像的分类结果。
作为又一个示例,在步骤S101中获取的图像集合由六个子集合构成,其中六个子集合中的图像所对应的光线类别信息分别指示白光类别,黄光类别,昏暗光类别,晴天类别,阴天类别,和黑夜类别,在这个示例中,训练出的分类器的分类结果包括与白光类别对应的输出项目,与黄光类别对应的输出项目,与昏暗光类别对应的输出项目,与晴天类别对应的输出项目,与阴天类别对应的输出项目,和与黑夜类别对应的输出项目,共计六个输出项目,同理,所述六个输出项目可以通过百分比的形式或者二进制值的形式等指示对输入图像的分类结果,具体的指示方式可以参照上一个示例,此处不再赘述。
值得说明的是,如同本领域技术人员所理解的,训练集合中的图像对应的光线类别信息的准确度与训练完成的分类器的准确度正相关,因此应确保训练集合中的图像各自对应的光线类别信息能够准确指示光线类别,例如图像集合中的A图像所描绘的画面为室内画面,那么A图像所对应的光线类别信息应指示室内光线类别而不能指示室外光线类别,以避免根据错误的光线类别信息训练出准确度较低的分类器。现有技术中往往通过人工标注的方式确定训练集合中的图像所对应的光线类别信息,在实现上例如通过数组、表结构等数据结构存储训练集合中的图像对应的或者包括的光线类别信息,本公开不再赘述。
步骤S103,根据所述图像集合和MobileNetV2神经网络训练所述分类器。
如本公开背景技术所述,基于卷积神经网络训练的分类器能够用于对输入图像的识别和/或分类,并且在步骤S101中所获取的图像集合包括光线类别信息,在步骤S102中确定了分类器的输出项目,因此在步骤S103中,根据所述图像集合和MobileNetV2神经网络训练出的分类器能够用于确定输入图像的光线类别信息。
在步骤S103中,在训练所述分类器时所采用的MobileNetV2神经网络是由Google公司设计的神经网络,具有轻量化、高检测速度以及高准确度的特点,其具体内容可以参照Mark Sandler等人发表的论文“MobileNetV2:Inverted Residuals and LinearBottlenecks”。通过本公开提供的实施方式,能够利用MobileNetV2神经网络高效地训练分类器,以识别输入图像的光线类别。
如前所述,MobileNetV2神经网络具有轻量化、高检测速度以及高准确度的特点,能够适应大多数场景,在训练本公开实施例提供的期望识别输入图像的光线类别的分类器时能够取得良好的分类效果,但是为了提高MobileNetV2神经网络的普适性和准确度等,在通过MobileNetV2神经网络训练分类器时会提取大量的图像特征做运算,而本公开实施例提供的期望识别输入图像的光线类别的分类器,仅需要将输入图像分为数量不多的光线类别(例如仅需要将输入图像分类为白光类别,黄光类别,昏暗光类别,晴天类别,阴天类别,黑夜类别中共计六种光线类别中的一种),在通过MobileNetV2神经网络训练该分类器的过程中,可能并不需要提取如此大量的图像特征,从而也就不需要相应的大量的运算,也能够训练出高效准确的用于识别输入图像的光线类别的分类器,因此,本公开进一步的提出其他的可选的实施例,以期实现减少运算量,提高运算速度的目的。
在详细描述本公开所提出的可选的实施例之前,首先概括地介绍MobileNetV2神经网络。MobileNetV2神经网络是由Google公司针对嵌入式设备提出的一种轻量级的深度神经网络,其在MobileNetV1基础上做出改进,采用先扩张再压缩的策略以减少计算量并提高精度。更为具体的,MobileNetV2神经网络使用了反向残差块Inverted residual block结构,Inverted residualblock结构中使用了Bottleneck卷积操作。图2所示为Invertedresidual block结构示意图,如图2所示,作为MobileNetV2神经网络中的层结构,Invertedresidual block结构可以用于接收P通道数的特征向量,经过1×1的点卷积操作提升维度,根据膨胀因子t将输出的通道数增维到t×P,然后连接到Dwise深度卷积层,再连接到点卷积层降维,实现的是先升维再降维的过程,该升维再降维的过程也可以称为Bottleneck卷积操作。在第一个点卷积和深度卷积的后面各自连接一个非线性激活函数(ReLU),由于这两层得到的通道增加到t×P,所以非线性激活函数造成的信息损失少,第二个点卷积降低深度卷积层输出的维度,由于维度减少,所以后面连接的是线性激活函数,如此操作能够在保证提取的特征向量的精确度的前提下降低运算量。
表1示出了标准的MobileNetV2神经网络的结构,如表1所示,输入的图像特征向量首先进入一个卷积层(层块数1,对应卷积操作:conv2d),该层后面依次连接十七个Inverted residual block结构(层块数2-18,对应瓶颈操作:bottleneck),然后再连接一个卷积层(层块数19,对应卷积操作:conv2d),再连接一个均值池化层(层块数20,对应均值池化操作:avgpool),最后连接一个卷积层(层块数21,对应卷积操作:conv2d)获得输出。其中,t为膨胀因子,代表bottleneck操作中升维的倍数;c为输出维度,代表相应的层块输出的特征向量的维度,n为重复次数,代表对应的操作的重复执行次数(例如层块数为3-4的行对应的n为2,代表执行2次bottleneck操作),s为步长,k为分类器的分类结果的输出项目的数量,可选的,NULL代表不涉及。
层块数 | 操作 | t | c | n | s |
1 | conv2d | NULL | 32 | 1 | 2 |
2 | bottleneck | 1 | 16 | 1 | 1 |
3-4 | bottleneck | 6 | 24 | 2 | 2 |
5-7 | bottleneck | 6 | 32 | 3 | 2 |
8-11 | bottleneck | 6 | 64 | 4 | 2 |
12-14 | bottleneck | 6 | 96 | 3 | 1 |
15-17 | bottleneck | 6 | 160 | 3 | 2 |
18 | bottleneck | 6 | 320 | 1 | 1 |
19 | conv2d | NULL | 1280 | 1 | 1 |
20 | avgpool | NULL | NULL | 1 | NULL |
21 | conv2d | NULL | k | NULL |
表1标准的MobileNetV2神经网络的结构
在本公开提供的可选的实施例中,拟改变MobileNetV2神经网络的参数,或者说改变MobileNetV2神经网络的结构,以期在训练分类器的过程中,实现减少运算量,提高运算速度的目的。
在一个可选的实施例中,所述MobileNetV2神经网络包括十个Inverted residualblock结构。如前所述,标准的MobileNetV2神经网络包括十七个Inverted residual block结构(参见表1中的层块数2-18所对应的行),MobileNetV2神经网络中的Invertedresidual block结构越多也就意味着运算量越大,相应地运算速度越慢,因此可以减少Inverted residual block结构的数量,从而提高训练分类器的效率。
可选的,所述十个Inverted residual block结构中的第一个Inverted residualblock结构中的bottleneck卷积操作所对应的膨胀因子t的值为1。可选的,所述十个Inverted residual block结构中的第一个Inverted residual block结构输出的特征向量的维度为16。膨胀因子t越小,则意味着bottleneck操作中升维的倍数越小,从而运算量越小;另外,相应层块关于图像的特征向量的输出维度越小,也意味着运算量越小。因此采用较小的膨胀因子和较小的输出维度,有利于提高训练分类器的效率。
可选的,所述十个Inverted residual block结构中的第二个到第九个Invertedresidual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为4。也就是说,在该实施例中,MobileNetV2神经网络中所包括的Inverted residual block结构中,除了第一个Inverted residual block结构,在其他的Inverted residual block结构中的bottleneck卷积操作所对应的膨胀因子t的值均为4,而标准的MobileNetV2神经网络中的膨胀因子t的值均为6。如前所述,减小膨胀因子t意味着bottleneck操作中减小了升维的倍数,从而也就减小了运算量。值得说明的是,MobileNetV2神经网络通过膨胀因子t实现先升维再降维的过程,以避免非线性激活函数造成的信息损失,因此t值并非随意选取,由于本公开实施例提供的训练期望识别输入图像的光线类别的分类器,仅需要将输入图像分为数量不多的光线类别,t的值为4时能够兼顾训练分类器的效率以及训练出的分类器的准确度。
可选的,所述十个Inverted residual block结构中的第二个和第三个Invertedresidual block结构输出的特征向量的维度为16。
可选的,所述十个Inverted residual block结构中的第四个到第六个Invertedresidual block结构输出的特征向量的维度为32。
可选的,所述十个Inverted residual block结构中的第七个和第八个Invertedresidual block结构输出的特征向量的维度为48。
可选的,所述十个Inverted residual block结构中的第九个和第十个Invertedresidual block结构输出的特征向量的维度为64。
如前所述,相应层块关于图像的特征向量的输出维度越小,也意味着运算量越小,因此在上述的可选的实施例中,相对于标准的MobileNetV2神经网络,在各个Invertedresidual block中减小了输出的特征向量的维度。值得说明的是,并非随意选取各Inverted residual block的输出维度,需要综合考虑分类任务的复杂程度(例如将输入图像分为数量不多的光线类别,该光线类别数量可以作为复杂程度的一个因素),并且各输出的特征向量的维度要与其对应的Inverted residual block中的膨胀因子t,重复操作次数n,以及步长s相适应。
表2所示为本公开提供的一个可选的实施例所采用的MobileNetV2神经网络的结构,该结构针对标准的MobileNetV2神经网络进行改进获得,例如修改了标准的MobileNetV2神经网络的参数。值得说明的是,在上述可选的实施例中,通过表2所示的MobileNetV2神经网络来训练分类模型,对于未修改的参数或者表2中未涉及的其他参数,可以采用标准的MobileNetV2神经网络中的相应参数,也可以采用其他设定的参数,本公开实施例对此不做限定。
如表2所示,输入的图像特征向量首先进入一个卷积层(层块数1,对应卷积操作:conv2d),该层后面依次连接十个Inverted residual block结构(层块数2-11,对应瓶颈操作:bottleneck),然后再连接一个卷积层(层块数13,对应卷积操作:conv2d),再连接一个均值池化层(层块数14,对应均值池化操作:avgpool),最后连接一个卷积层(层块数15,对应卷积操作:conv2d)获得输出。其中,t为膨胀因子,代表bottleneck操作中升维的倍数;c为输出维度,代表相应的层块输出的特征向量的维度,n为重复次数,代表对应的操作的重复执行次数(例如层块数为3-4的行对应的n为2,代表执行2次bottleneck操作),s为步长,k为分类器的分类结果的输出项目的数量,可选的,NULL代表不涉及。
表2本公开实施例采用的MobileNetV2神经网络的结构
采用表2所示的MobileNetV2神经网络来训练本公开提供的期望识别输入图像的光线类别的分类器时,由于Inverted residual block结构从标准的MobileNetV2神经网络的十七个减少到十个,并且膨胀因子t,代表bottleneck操作中升维的倍数的输出维度c等均有所减小,从而训练该分类器时的运算量显著减小。经过测算,对于同样的训练集合,相对于采用标准的MobileNetV2神经网络,采用表2提供的MobileNetV2神经网络训练分类器,训练速度提升了四倍以上,而准确度几乎相同。
图3所示为本公开实施例提供的训练分类器的装置300实施例的结构示意图,如图3所示,所述训练分类器的装置300包括图像集合获取模块301,确定模块302,和训练模块303。
其中,所述图像集合获取模块301,用于获取图像集合,所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;所述确定模块302,用于确定分类器的输出项目,所述输出项目与所述光线类别信息对应;所述训练模块303,用于根据所述图像集合和MobileNetV2神经网络训练所述分类器。
图3所示装置可以执行图1所示实施例的方法,本实施例未详细描述的部分,可参考对图1所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1所示实施例中的描述,在此不再赘述。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线或通信线路404彼此相连。输入/输出(I/O)接口405也连接至总线或通信线路404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例中的训练分类器的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种训练分类器的方法,其特征在于,包括:
获取图像集合,所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;
确定分类器的输出项目,所述输出项目与所述光线类别信息对应;
根据所述图像集合和MobileNetV2神经网络训练所述分类器。
2.根据权利要求1所述的训练分类器的方法,其特征在于,所述MobileNetV2神经网络包括十个Inverted residual block结构。
3.根据权利要求2所述的训练分类器的方法,其特征在于,所述十个Invertedresidual block结构中的第一个Inverted residual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为1。
4.根据权利要求3中任一权利要求所述的训练分类器的方法,其特征在于,所述十个Inverted residual block结构中的第一个Inverted residual block结构输出的特征向量的维度为16。
5.根据权利要求2-4中任一所述的训练分类器的方法,其特征在于,所述十个Invertedresidual block结构中的第二个到第九个Inverted residual block结构中的bottleneck卷积操作所对应的膨胀因子t的值为4。
6.根据权利要求5所述的训练分类器的方法,其特征在于,所述十个Invertedresidual block结构中的第二个和第三个Inverted residual block结构输出的特征向量的维度为16。
7.根据权利要求5所述的训练分类器的方法,其特征在于,所述十个Invertedresidual block结构中的第四个到第六个Inverted residual block结构输出的特征向量的维度为32。
8.根据权利要求5所述的训练分类器的方法,其特征在于,所述十个Invertedresidual block结构中的第七个和第八个Inverted residual block结构输出的特征向量的维度为48。
9.根据权利要求5所述的训练分类器的方法,其特征在于,所述十个Invertedresidual block结构中的第九个和第十个Inverted residual block结构输出的特征向量的维度为64。
10.一种训练分类器的装置,其特征在于,包括:
图像集合获取模块,用于所述图像集合中的图像与光线类别信息对应,所述光线类别信息指示与所述光线类别信息对应的图像的光线类别;
确定模块,用于确定分类器的输出项目,所述输出项目与所述光线类别信息对应;
训练模块,用于根据所述图像集合和MobileNetV2神经网络训练所述分类器。
11.一种电子设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器运行时实现根据权利要求1-9中任意一项所述的训练分类器的方法。
12.一种非暂态计算机可读存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-9中任意一项所述的训练分类器的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401167.1A CN111950572A (zh) | 2019-05-14 | 2019-05-14 | 训练分类器的方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401167.1A CN111950572A (zh) | 2019-05-14 | 2019-05-14 | 训练分类器的方法、装置、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950572A true CN111950572A (zh) | 2020-11-17 |
Family
ID=73335719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910401167.1A Pending CN111950572A (zh) | 2019-05-14 | 2019-05-14 | 训练分类器的方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950572A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112263224A (zh) * | 2020-12-24 | 2021-01-26 | 南京信息工程大学 | 一种基于fpga边缘计算的医学信息处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764370A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN108921013A (zh) * | 2018-05-16 | 2018-11-30 | 浙江零跑科技有限公司 | 一种基于深度神经网络的视觉场景识别系统及方法 |
CN109145983A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于轻量化网络的实时场景图像语义分割方法 |
CN109165675A (zh) * | 2018-07-26 | 2019-01-08 | 西安电子科技大学 | 基于周期性局部连接卷积神经网络的图像分类方法 |
CN109190654A (zh) * | 2018-07-09 | 2019-01-11 | 上海斐讯数据通信技术有限公司 | 人脸识别模型的训练方法和装置 |
-
2019
- 2019-05-14 CN CN201910401167.1A patent/CN111950572A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921013A (zh) * | 2018-05-16 | 2018-11-30 | 浙江零跑科技有限公司 | 一种基于深度神经网络的视觉场景识别系统及方法 |
CN108764370A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN109190654A (zh) * | 2018-07-09 | 2019-01-11 | 上海斐讯数据通信技术有限公司 | 人脸识别模型的训练方法和装置 |
CN109165675A (zh) * | 2018-07-26 | 2019-01-08 | 西安电子科技大学 | 基于周期性局部连接卷积神经网络的图像分类方法 |
CN109145983A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于轻量化网络的实时场景图像语义分割方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112263224A (zh) * | 2020-12-24 | 2021-01-26 | 南京信息工程大学 | 一种基于fpga边缘计算的医学信息处理方法 |
CN112263224B (zh) * | 2020-12-24 | 2021-03-23 | 南京信息工程大学 | 一种基于fpga边缘计算的医学信息处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476309B (zh) | 图像处理方法、模型训练方法、装置、设备及可读介质 | |
CN110378410B (zh) | 多标签场景分类方法、装置及电子设备 | |
CN112364860B (zh) | 字符识别模型的训练方法、装置和电子设备 | |
CN111340131A (zh) | 图像的标注方法、装置、可读介质和电子设备 | |
CN110826567B (zh) | 光学字符识别方法、装置、设备及存储介质 | |
CN112668588B (zh) | 车位信息生成方法、装置、设备和计算机可读介质 | |
CN110674349B (zh) | 视频poi识别方法、装置及电子设备 | |
CN110267097A (zh) | 基于分类特征的视频推送方法、装置及电子设备 | |
CN113033682B (zh) | 视频分类方法、装置、可读介质、电子设备 | |
CN111738316A (zh) | 零样本学习的图像分类方法、装置及电子设备 | |
CN113140012B (zh) | 图像处理方法、装置、介质及电子设备 | |
CN113468330A (zh) | 信息获取方法、装置、设备及介质 | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
CN116894188A (zh) | 业务标签集更新方法、装置、介质及电子设备 | |
CN116503596A (zh) | 图片分割方法、装置、介质和电子设备 | |
CN110069997B (zh) | 场景分类方法、装置及电子设备 | |
CN111753114A (zh) | 图像预标注方法、装置及电子设备 | |
CN111291715A (zh) | 基于多尺度卷积神经网络的车型识别方法、电子设备及存储介质 | |
CN111950572A (zh) | 训练分类器的方法、装置、电子设备和计算机可读存储介质 | |
CN111797822A (zh) | 文字对象评价方法、装置和电子设备 | |
CN111797931B (zh) | 图像处理方法、图像处理网络训练方法、装置、设备 | |
CN114187557A (zh) | 确定关键帧的方法、装置、可读介质及电子设备 | |
CN114004229A (zh) | 文本识别方法、装置、可读介质及电子设备 | |
CN110378406A (zh) | 图像情感分析方法、装置及电子设备 | |
CN110222746A (zh) | 训练分类器的方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |