CN116682141A - 基于多尺度递进式感知的多标签行人属性识别方法及介质 - Google Patents
基于多尺度递进式感知的多标签行人属性识别方法及介质 Download PDFInfo
- Publication number
- CN116682141A CN116682141A CN202310657643.2A CN202310657643A CN116682141A CN 116682141 A CN116682141 A CN 116682141A CN 202310657643 A CN202310657643 A CN 202310657643A CN 116682141 A CN116682141 A CN 116682141A
- Authority
- CN
- China
- Prior art keywords
- scale
- attribute
- progressive
- pedestrian
- perception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000750 progressive effect Effects 0.000 title claims abstract description 90
- 230000008447 perception Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多尺度递进式感知的多标签行人属性识别方法,包括:将行人图像输入到主干网络中,经过主干网络的多个残差卷积块进行特征提取,得到属性特征信息;构建多个多尺度递进式感知模型,并进行训练;将训练好的多个多尺度递进式感知模型嵌入到主干网络中,将目标残差卷积块输出的属性特征信息输入到对应的多尺度递进式感知模型中,得到多尺度特征信息;将多个多尺度特征信息均通过全局平均池化层处理后,送入第一属性预测层进行属性概率预测;将后一个多尺度递进式感知模型对应的第一属性预测层对前一个多尺度递进式感知模型对应的第一属性预测层做递进式约束。本发明还公开了一种计算机可读存储介质,提升整个行人属性区域的特征鲁棒性。
Description
技术领域
本发明涉及行人属性识别技术领域,尤其涉及基于多尺度递进式感知的多标签行人属性识别方法及介质。
背景技术
行人属性识别的目的是在一张行人图像中识别出多个属性(例如:长发、西装、皮鞋、眼镜、年龄、性格等)。随着监控技术的迅速发展,大量的监控系统被部署在公共场所。因此,行人属性识别是一种获取特定目标语义属性信息的技术,近年来受到越来越多的关注,已成为视频监控应用中的关键技术。它也日益成为促进行人再识别和行人检索研究的主要选择。然而,尽管经过多年的努力,行人属性识别仍然是一个具有挑战性的问题,因为行人姿势、视点、照明、不完善的行人检测、遮挡、照明差异等会对识别结果造成影响。
在过去几年中,许多方法证明了它们在行人属性识别任务上的优越性。与传统图像分类任务(图像属于单一类别)不同,行人图像通常有多个需要分类的属性标签。行人属性识别被看做为一个多标签任务,为了预测特定属性的存在,需要对该行人属性存在的区域进行相关定位。
现有的方法采用一个主干网络进行特征提取,嵌入一个线性分类层,线性分类层中构建多个二进制分类器,在二值交叉熵损失函数的约束下,来预测多个行人属性。然而,现有方法忽略同一类属性在不同行人姿态下外观形式以及位置的变化,属性的展现形式是有所不同的;主干网络无法在学习全局特征信息的情况下,应对这种类内属性的变化。与此同时,主干网络都是采用同一种卷积核对图像进行特征提取,经常会忽略局部行人属性区域的特征。例如:当一个人左边背着包并正对摄像头;当行人背对摄像头时,背包出现在图像的右侧。与此同时,主干网络采用同一种卷积核对行人属性图像进行特征提取,会对部分属性区域有所忽略。由于,之前的方法更多关注在全局信息,缺乏对局部特征信息的学习,导致对提取出的特征无法对所有属性都有较好的鲁棒性。
发明内容
有鉴于此,本发明的目的在于提出一种基于多尺度递进式感知的多标签行人属性识别方法,本发明引入了多尺度递进式感知模型嵌入主干网络中,用于对局部区域的特征学习。本发明提出的尺度递进式感知模型可以适用多种主干网络,来促进现有行人属性方法对局部属性的特征信息学习。除此以外,对于不同尺度特征信息,通过一个动态的聚合策略对多种特征结合,以提升整个行人属性区域的特征鲁棒性。
为了实现上述的技术目的,本发明所采用的技术方案为:
本发明提供了一种基于多尺度递进式感知的多标签行人属性识别方法,包括如下步骤:
步骤1、将行人图像输入到主干网络中,经过所述主干网络的多个残差卷积块进行特征提取,得到由每个残差卷积块输出的属性特征信息;
步骤2、构建多个多尺度递进式感知模型,并对每个多尺度递进式感知模型进行训练;
步骤3、将训练好的多个多尺度递进式感知模型嵌入到所述主干网络中,将目标残差卷积块输出的属性特征信息输入到对应的多尺度递进式感知模型中,得到多尺度特征信息;
步骤4、将多个多尺度特征信息均通过全局平均池化层处理后,送入第一属性预测层进行属性概率预测;
步骤5、将后一个多尺度递进式感知模型对应的第一属性预测层对前一个多尺度递进式感知模型对应的第一属性预测层做递进式约束。
进一步的,所述步骤1具体包括:
步骤11、将获取的行人数据集D中的第i张行人图像xi作为主干网络的输入,该第i张行人图像xi对应的行人属性标签定义为yi∈{0,1}M,其中,M代表行人属性的类别数,0表示该行人属性不存在,1表示该行人属性存在;
步骤12、所述主干网络包括依次连接的l个残差卷积块,所述行人图像作为第1个残差卷积块的输入,当前残差卷积块的输出作为下一个残差卷积块的输入;
步骤13、所述行人图像xi经过主干网络的残差卷积块进行特征提取,得到对应的属性特征信息,其表达式如下:
Fl=(Bl{x|θ1,…θl}) (1)
其中,Fl表示第l个残差卷积块输出的属性特征信息;Bl代表主干网络中第1个到第l个的残差卷积块,θ1,…θl表示主干网络中第1个到第l个的残差卷积块的训练参数。
进一步的,所述步骤2具体包括:
步骤21、构建多个多尺度递进式感知模型;
步骤22、采用二值交叉熵作为损失函数,通过损失函数对每个多尺度递进式感知模型进行训练;
损失函数的表达形式为:
其中,Lbce表示损失函数,N和M表示数据量,i表示行人图像张数的编号,j表示行人属性的编号,表示第i张行人图像xi送入多尺度递进式感知模型中,对第i张行人图像xi中第j个行人属性的模型预测概率值;yi,j表示第i张行人图像的第j个行人属性标签值,ωj表示不均衡抑制因子;log表示对数函数,σ表示激活函数,e表示指数,rj表示第j个行人属性在训练集中正样本比例。
进一步的,所述步骤3具体包括:
步骤31、将所述主干网络中第1个到第l-1个残差卷积块作为目标残差卷积块,根据所述目标残差卷积块的个数设置尺度递进式感知模型的个数;
步骤32、将训练好的多个多尺度递进式感知模型嵌入到所述主干网络中;
步骤33、将第p个目标残差卷积块的输出Fp输入到第p个多尺度递进式感知模型中,得到第p个尺度特征信息;p为正整数且取值范围是1≤p≤l-1。
进一步的,所述步骤33具体包括:
步骤331、将所述主干网络中每个目标残差卷积块输出的属性特征信息作为相对应的多尺度递进式感知模型的输入;
步骤332、在所述多尺度递进式感知模型中,将所述属性特征信息送入降维卷积层进行降维操作;
步骤333、将降维后的属性特征信息分别进入多个支路,通过不同的支路送入多种不同的卷积核中进行不同尺度的特征提取,得到不同的第一尺度特征;
步骤334、每个支路中卷积核提取出的第一尺度特征都经过一个全连接层对第一尺度特征的维度进行调整,再通过激活函数进行非线性处理,得到第二尺度特征;
步骤335、将每个支路中所述第二尺度特征和第一尺度特征进行相乘,作为该支路的输出特征;
步骤336、将多个支路的输出特征进行相加,得到多尺度特征信息。
进一步的,所述降维卷积层采用1x1卷积核。
进一步的,所述支路设置有3个,3个支路上分别设置有3种不同的卷积核,分别采用:3x3卷积核、5x5卷积核和7x7卷积核。
进一步的,所述步骤5是通过L2范数将后一个多尺度递进式感知模型对应的第一属性预测层对前一个多尺度递进式感知模型对应的第一属性预测层做递进式约束。
进一步的,所述步骤5之后还包括:
步骤6、将最后一个残差卷积块输出的属性特征信息通过全局平均池化层处理后,送入第二属性预测层,将所述第二属性预测层的输出结果作为最终的行人属性识别结果。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的基于多尺度递进式感知的多标签行人属性识别方法。
采用上述的技术方案,本发明与现有技术相比,其具有的有益效果为:
本发明引入了尺度递进式感知模型,嵌入其主干网络中,用于对局部区域的特征学习。本发明提出的尺度递进式感知模型可以适用多种主干网络,来促进现有行人属性方法对局部属性的特征信息学习。除此以外,对于不同尺度特征信息,通过一个动态的聚合策略对多种特征结合,以提升整个行人属性区域的特征鲁棒性。此外,本发明提出的多尺度递进式感知模型是即插即用的,在推理期间没有任何额外的计算开销,在多个数据集上的实验验证了所提出的方法可以带来显著的性能提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于多尺度递进式感知的多标签行人属性识别方法架构图。
图2是本发明实施例提供的多尺度递进式感知模型框架图。
图3是本发明实施例提供的一种计算机可读存储介质的示意图。
图中标号说明:
残差卷积块1、多尺度递进式感知模型2、全局平均池化层3、第一属性预测层4、第二属性预测层5。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参见图1和图2,本发明一种基于多尺度递进式感知的多标签行人属性识别方法,包括如下步骤:
步骤1、将行人图像输入到主干网络(ResNet50,本实施例中包含4个残差卷积块1)中,经过所述主干网络的多个残差卷积块1进行特征提取,得到由每个残差卷积块1输出的属性特征信息;
在本实施例中,所述步骤1具体包括:
步骤11、将获取的行人数据集D中的第i张行人图像xi作为主干网络的输入,该第i张行人图像xi对应的行人属性标签定义为yi∈{0,1}M,其中,M代表行人属性的类别数,0表示该行人属性不存在,1表示该行人属性存在;
步骤12、所述主干网络包括依次连接的l个残差卷积块1,所述行人图像作为第1个残差卷积块1的输入,当前残差卷积块1的输出作为下一个残差卷积块1的输入;
步骤13、所述行人图像xi经过主干网络的残差卷积块1进行特征提取,得到对应的属性特征信息,其表达式如下:
Fl=(Bl{x|θ1,…θl}) (1)
其中,Fl表示第l个残差卷积块1输出的属性特征信息;Bl代表主干网络中第1个到第l个的残差卷积块1,θ1,…θl表示主干网络中第1个到第l个的残差卷积块1的训练参数。
步骤2、构建多个多尺度递进式感知模型2,并对每个多尺度递进式感知模型2进行训练;
在本实施例中,所述步骤2具体包括:
步骤21、构建多个多尺度递进式感知模型2;
步骤22、整个行人属性识别问题被看作是一个多标签分类任务,采用二值交叉熵(BCELoss)作为损失函数,通过损失函数对每个多尺度递进式感知模型2进行训练;
损失函数的表达形式为:
其中,Lbce表示损失函数,N和M表示数据量,i表示行人图像张数的编号,j表示行人属性的编号,表示第i张行人图像xi送入多尺度递进式感知模型2中,对第i张行人图像xi中第j个行人属性的模型预测概率值;yi,j表示第i张行人图像的第j个行人属性标签值,ωj表示不均衡抑制因子;log表示对数函数,σ表示激活函数,e表示指数,rj表示第j个行人属性在训练集中正样本比例。
步骤3、将训练好的多个多尺度递进式感知模型2嵌入到所述主干网络中,将目标残差卷积块1输出的属性特征信息输入到对应的多尺度递进式感知模型2中,得到多尺度特征信息;
在本实施例中,所述步骤3具体包括:
步骤31、将所述主干网络中第1个到第l-1个残差卷积块1作为目标残差卷积块1,根据所述目标残差卷积块1的个数设置尺度递进式感知模型的个数;
步骤32、将训练好的多个多尺度递进式感知模型2嵌入到所述主干网络中;用于对局部区域的特征学习;
步骤33、将第p个目标残差卷积块1的输出Fp输入到第p个多尺度递进式感知模型2中,得到第p个尺度特征信息;p为正整数且取值范围是1≤p≤l-1。用于提取不同尺度的特征,推动网络学习局部属性区域特征。
在本实施例中,所述步骤33具体包括:
步骤331、将所述主干网络中每个目标残差卷积块1输出的属性特征信息作为相对应的多尺度递进式感知模型2的输入;
步骤332、在所述多尺度递进式感知模型2中,将所述属性特征信息送入降维卷积层进行降维操作;在本实施例中,所述降维卷积层采用1x1卷积核(conv),此步骤的目的是为了降低特征维度以减少计算量。
步骤333、将降维后的属性特征信息分别进入多个支路,通过不同的支路送入多种不同的卷积核中进行不同尺度的特征提取,得到不同的第一尺度特征;
在本实施例中,所述支路设置有3个,3个支路上分别设置有3种不同的卷积核,分别采用:3x3卷积核(图2最左侧支路)、5x5卷积核(图2中间支路)和7x7卷积核(图2最右边支路),其中,5x5卷积核是采用两个3x3卷积核构成的,7x7卷积核是采用三个3x3卷积核构成的。3种不同的卷积核均采用两个3x3卷积核是为了减少参数量以达到轻量化。输入的特征分别经过3x3、5x5、7x7来提取不同尺度的特征,从而覆盖不同行人属性的区域特征,使得提取的特征最具表征力。
步骤334、每个支路中卷积核提取出的第一尺度特征都经过一个全连接层(FC层)对第一尺度特征的维度进行调整,再通过激活函数(Sigmoid函数)进行非线性处理(增加非线性),得到第二尺度特征;
步骤335、将每个支路中所述第二尺度特征和第一尺度特征进行相乘,作为该支路的输出特征;
步骤336、将多个支路的输出特征进行相加,得到多尺度特征信息。通过对不同尺度特征的获取,来增加对局部特征信息的表征,从而丰富特征的鲁棒性。
步骤4、将多个多尺度特征信息均通过全局平均池化层3(GAP)处理后,送入第一属性预测层4进行属性概率预测;
步骤5、将后一个多尺度递进式感知模型2对应的第一属性预测层4对前一个多尺度递进式感知模型2对应的第一属性预测层4做递进式约束。此步骤的目的是为了进一步约束模型的参数训练。
在本实施例中,所述步骤5是通过L2范数将后一个多尺度递进式感知模型2对应的第一属性预测层4对前一个多尺度递进式感知模型2对应的第一属性预测层4做递进式约束。为了防止模型训练过程因梯度消失的现象导致前面卷积块参数更新及时的情况,本发明利用后一个多尺度递进式感知模型2的第一属性预测层4来对前一个多尺度递进式感知模型2的第一属性预测层4做递进式约束,使得前一个多尺度递进式感知模型2的参数优化方向能和后一个多尺度递进式感知模型2保持一致。即,利用图1中的递进约束(L2范数)来约束图1中的相邻的第一属性预测层4,递进式的约束模型的训练,促进前面残差卷积块1的参数更新。
在本实施例中,所述步骤5之后还包括:
步骤6、将最后一个残差卷积块1输出的属性特征信息通过全局平均池化层3处理后,送入第二属性预测层5,将所述第二属性预测层5的输出结果作为最终的行人属性识别结果。
如图3所示,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于多尺度递进式感知的多标签行人属性识别方法。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,包括如下步骤:
步骤1、将行人图像输入到主干网络中,经过所述主干网络的多个残差卷积块进行特征提取,得到由每个残差卷积块输出的属性特征信息;
步骤2、构建多个多尺度递进式感知模型,并对每个多尺度递进式感知模型进行训练;
步骤3、将训练好的多个多尺度递进式感知模型嵌入到所述主干网络中,将目标残差卷积块输出的属性特征信息输入到对应的多尺度递进式感知模型中,得到多尺度特征信息;
步骤4、将多个多尺度特征信息均通过全局平均池化层处理后,送入第一属性预测层进行属性概率预测;
步骤5、将后一个多尺度递进式感知模型对应的第一属性预测层对前一个多尺度递进式感知模型对应的第一属性预测层做递进式约束。
2.如权利要求1所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述步骤1具体包括:
步骤11、将获取的行人数据集D中的第i张行人图像xi作为主干网络的输入,该第i张行人图像xi对应的行人属性标签定义为yi∈{0,1}M,其中,M代表行人属性的类别数,0表示该行人属性不存在,1表示该行人属性存在;
步骤12、所述主干网络包括依次连接的l个残差卷积块,所述行人图像作为第1个残差卷积块的输入,当前残差卷积块的输出作为下一个残差卷积块的输入;
步骤13、所述行人图像xi经过主干网络的残差卷积块进行特征提取,得到对应的属性特征信息,其表达式如下:
Fl=(Bl{x|θ1,…θl}) (1)
其中,Fl表示第l个残差卷积块输出的属性特征信息;Bl代表主干网络中第1个到第l个的残差卷积块,θ1,…θl表示主干网络中第1个到第l个的残差卷积块的训练参数。
3.如权利要求2所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述步骤2具体包括:
步骤21、构建多个多尺度递进式感知模型;
步骤22、采用二值交叉熵作为损失函数,通过损失函数对每个多尺度递进式感知模型进行训练;
损失函数的表达形式为:
其中,Lbce表示损失函数,N和M表示数据量,i表示行人图像张数的编号,j表示行人属性的编号,表示第i张行人图像xi送入多尺度递进式感知模型中,对第i张行人图像xi中第j个行人属性的模型预测概率值;yi,j表示第i张行人图像的第j个行人属性标签值,ωj表示不均衡抑制因子;log表示对数函数,σ表示激活函数,e表示指数,rj表示第j个行人属性在训练集中正样本比例。
4.如权利要求3所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述步骤3具体包括:
步骤31、将所述主干网络中第1个到第l-1个残差卷积块作为目标残差卷积块,根据所述目标残差卷积块的个数设置尺度递进式感知模型的个数;
步骤32、将训练好的多个多尺度递进式感知模型嵌入到所述主干网络中;
步骤33、将第p个目标残差卷积块的输出Fp输入到第p个多尺度递进式感知模型中,得到第p个尺度特征信息;p为正整数且取值范围是1≤p≤l-1。
5.如权利要求4所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述步骤33具体包括:
步骤331、将所述主干网络中每个目标残差卷积块输出的属性特征信息作为相对应的多尺度递进式感知模型的输入;
步骤332、在所述多尺度递进式感知模型中,将所述属性特征信息送入降维卷积层进行降维操作;
步骤333、将降维后的属性特征信息分别进入多个支路,通过不同的支路送入多种不同的卷积核中进行不同尺度的特征提取,得到不同的第一尺度特征;
步骤334、每个支路中卷积核提取出的第一尺度特征都经过一个全连接层对第一尺度特征的维度进行调整,再通过激活函数进行非线性处理,得到第二尺度特征;
步骤335、将每个支路中所述第二尺度特征和第一尺度特征进行相乘,作为该支路的输出特征;
步骤336、将多个支路的输出特征进行相加,得到多尺度特征信息。
6.如权利要求5所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述降维卷积层采用1x1卷积核。
7.如权利要求5所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述支路设置有3个,3个支路上分别设置有3种不同的卷积核,分别采用:3x3卷积核、5x5卷积核和7x7卷积核。
8.如权利要求1所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述步骤5是通过L2范数将后一个多尺度递进式感知模型对应的第一属性预测层对前一个多尺度递进式感知模型对应的第一属性预测层做递进式约束。
9.如权利要求1所述的基于多尺度递进式感知的多标签行人属性识别方法,其特征在于,所述步骤5之后还包括:
步骤6、将最后一个残差卷积块输出的属性特征信息通过全局平均池化层处理后,送入第二属性预测层,将所述第二属性预测层的输出结果作为最终的行人属性识别结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9任一项所述的基于多尺度递进式感知的多标签行人属性识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310657643.2A CN116682141A (zh) | 2023-06-05 | 2023-06-05 | 基于多尺度递进式感知的多标签行人属性识别方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310657643.2A CN116682141A (zh) | 2023-06-05 | 2023-06-05 | 基于多尺度递进式感知的多标签行人属性识别方法及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116682141A true CN116682141A (zh) | 2023-09-01 |
Family
ID=87781815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310657643.2A Pending CN116682141A (zh) | 2023-06-05 | 2023-06-05 | 基于多尺度递进式感知的多标签行人属性识别方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115729A (zh) * | 2024-04-26 | 2024-05-31 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及系统 |
-
2023
- 2023-06-05 CN CN202310657643.2A patent/CN116682141A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115729A (zh) * | 2024-04-26 | 2024-05-31 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及系统 |
CN118115729B (zh) * | 2024-04-26 | 2024-07-26 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3327583B1 (en) | Method and device for searching a target in an image | |
Xu et al. | No-reference/blind image quality assessment: a survey | |
Elaskily et al. | Deep learning based algorithm (ConvLSTM) for copy move forgery detection | |
EP3147799A1 (en) | Similarity-based detection of prominent objects using deep cnn pooling layers as features | |
Chen et al. | A localization/verification scheme for finding text in images and video frames based on contrast independent features and machine learning methods | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
Chaitra et al. | An approach for copy-move image multiple forgery detection based on an optimized pre-trained deep learning model | |
Cheng et al. | Sparse representations based attribute learning for flower classification | |
Jain et al. | An efficient image forgery detection using biorthogonal wavelet transform and improved relevance vector machine | |
Nizami et al. | No-reference image quality assessment using bag-of-features with feature selection | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
Siddiqi | Fruit-classification model resilience under adversarial attack | |
CN116543433A (zh) | 一种基于改进YOLOv7模型的口罩佩戴检测方法和装置 | |
CN116682141A (zh) | 基于多尺度递进式感知的多标签行人属性识别方法及介质 | |
Hussain et al. | Few-shot based learning recaptured image detection with multi-scale feature fusion and attention | |
CN116958615A (zh) | 图片识别方法、装置、设备和介质 | |
CN112084371B (zh) | 一种电影多标签分类方法、装置、电子设备以及存储介质 | |
Paul et al. | Dimensionality reduction of hyperspectral images: a data-driven approach for band selection | |
CN118887689A (zh) | 手写电子签名的真实性验证方法、装置 | |
CN111680711A (zh) | 基于卷积神经网络的Logo图像分类方法 | |
CN115114851B (zh) | 基于五折交叉验证的评分卡建模方法及装置 | |
Turtinen et al. | Contextual analysis of textured scene images. | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
CN116975487A (zh) | 异常网页检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |