CN114782977B - 一种基于拓扑信息和亲和度信息引导行人重识别方法 - Google Patents
一种基于拓扑信息和亲和度信息引导行人重识别方法 Download PDFInfo
- Publication number
- CN114782977B CN114782977B CN202110469260.3A CN202110469260A CN114782977B CN 114782977 B CN114782977 B CN 114782977B CN 202110469260 A CN202110469260 A CN 202110469260A CN 114782977 B CN114782977 B CN 114782977B
- Authority
- CN
- China
- Prior art keywords
- channel
- attention
- module
- feature
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000005065 mining Methods 0.000 claims abstract 2
- 108091006146 Channels Proteins 0.000 claims description 134
- 230000006870 function Effects 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于拓扑信息和亲和度信息引导行人重识别方法,步骤1:利用ResNet‑50构建行人重识别模型的主干网络,用于提取行人特征;步骤2:自学习图卷积网络的构建,其用于空间拓扑信息的挖掘;步骤3:空间注意力子模块的构建,指导空间注意力的学习;步骤4:通道注意力子模块的构建,指导通道注意力的学习;步骤5:对基于拓扑信息和亲和度信息引导的全局注意力模块组合方式设计与实现;步骤6:对基于拓扑信息和亲和度信息引导的全局注意力模块进行嵌入方式设计。通道注意力融合了通道亲和度信息和通道语义信息来指导通道注意力的学习。以此来提升行人特征的表征能力,提升行人重识别模型的性能。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于拓扑信息和亲和度信息引导行人重识别方法。
背景技术
行人重识别指的是给出一张感兴趣的行人图像,在其他的摄像机镜头拍摄的图像中检索并识别出属于这个行人的全部图片,行人重识别的本质是非重叠摄像头下的指定行人检索问题。行人重识别技术具有很多重要的应用场景,如视频监控,人的行为分析,多目标跟踪等。因此行人重识别日益受到研究者的重视,但是在实际环境中仍然是一项具有挑战性的任务。
传统的行人重识别方法大都是根据人类对图像的理解来设计特征,一般是通过事先定义好的特征描述方法提取图像特征,如颜色,纹理和梯度等。这些方法在小数据上取得了一定的成功,但是难以满足大规模搜索的需求。近年来,以卷积神经网络为代表的深度学习在计算机视觉领域取得了极大的成功,在多项任务上都击败传统的方法,甚至一定程度上超越了人类的水平。所以许多研究者通过设计不同的深层网络来学习行人的识别特征,从而提升行人重识别模型的性能。
近年来,由于注意力机制可以关注输入信号中信息最丰富的部分,并在各种任务中被证明是有效的,包括纹理合成,超分辨率,图像修补等,甚至是图像识别,图像分割,动作定位等高级任务中也是有效的。行人重识别的关键就是通过具有鉴别性特征的学习来匹配行人图像,而注意力机制可以强化鉴别性特征,抑制不相关特征。这一点与行人重识别相匹配,所以在行人重识别领域中,注意力机制受到了广泛的应用。
行人重识别的主要问题是由于局部的遮挡,背景噪声,相机风格变化,光照条件变化等因素,导致行人的外观产生较大的变化。面对这些问题,如何提取具有鉴别性的特征对行人重识别具有重大意义。
发明内容
针对现有技术不足,本发明的目的在于提供一种基于拓扑信息和亲和度信息引导行人重识别方法,提出了两种有益于聚类的全局信息,即空间拓扑信息和通道亲和度信息。在此基础上设计一个基于拓扑信息和亲和度信息引导的全局注意力模块,该全局注意力模块包含空间注意力子模块和通道注意力子模块。空间注意力子模块融合了空间拓扑信息和局部特征的语义信息来指导空间注意力的学习,通道注意力融合了通道亲和度信息和通道语义信息来指导通道注意力的学习。以此来提升行人特征的表征能力,提升行人重识别模型的性能。
本发明提供如下技术方案:
一种基于拓扑信息和亲和度信息引导行人重识别方法,包括以下步骤:
步骤1:利用ResNet-50构建行人重识别模型的主干网络,用于提取行人特征;
步骤2:自学习图卷积网络的构建,自学习图卷积网络只需要输入点集中所有点的特征X∈RC×N即可,其中C和N分别表示每一个特征点的维度和点集中特征点的个数;
步骤3:空间注意力子模块的构建,其利用空间拓扑信息和局部特征的语义信息相融合来指导空间注意力的学习;
步骤4:通道注意力子模块的构建,其利用通道亲和度信息和通道语义信息相融合来指导通道注意力的学习;
步骤5:对基于拓扑信息和亲和度信息引导的全局注意力模块组合方式设计与实现;
步骤6:对基于拓扑信息和亲和度信息引导的全局注意力模块进行嵌入方式设计。
优选的,在步骤1中,ResNet-50需要在ImageNet上进行预训练,再去除掉了conv5_x中最后一个空间下采样操作,增加了Ni-dim全连接层进行分类,Ni表示数据集中行人身份的数量。
优选的,在步骤2中,利用两个独立的1×1卷积层来学习成对特征点之间的关系,并利用这些关联信息构建邻接矩阵Als,将N个特征点表示为vi∈RC,其中i=1,…,N,那么Als中第i行,第j列的值可以表示为
其中f1和f2是两个嵌入函数,其通过一个1×1卷积层连接批量正则化层和激活函数ReLU所实现的,f1和f2可以表示为:
f1(vi)=ReLU(BN(θ(vi)))
f2(vj)=ReLU(BN(φ(vj)))
其中表示两个独立的1×1卷积层,这两个卷积层的输出设为输入的1/s,所以自学习图卷积可以表示为:
Xt=AlsXW。
优选的,在步骤3中,首先,经过主干网络进行特征提取,获得了宽为W,高为H,通道为C的中间特征图X∈RH×W×C,将每一个空间位置上C维向量作为特征点,每一个特征点代表其对应空间位置的局部特征,将这些具有空间局部特征的特征点联合起来形成一个点集Xs={x1,x2,x3…xN},其中N=H×W;将这个点集Xs送入自学习图卷积网络中,进而获得具有拓扑信息的点集将点集中的特征点按照原来的空间位置构建特征图Cs其中表示自学习图卷积网络生成的特征点的维度,Xt表示具有拓扑信息的特征图,为了获得更加全面的信息,将局部特征的语义信息和空间拓扑信息进行融合,由于这两种信息不属于同一种特征域,需要将它们分别送入1×1的卷积层,并将其拼接获得空间融合特征Fs:
Fs=[Ps(Ls(X)),Ts(Xt)];
Ls和Ts分别表示局部特征和具有拓扑信息的特征图的嵌入函数,该函数是使用带有批正则化层和ReLU激活函数的1×1卷积层,Ls的输出维度设为原来的1/r,Ts的输出维度与原来相同,表示沿着通道方向做平均池化操作,将其维度减小到1,最终获得空间融合特征Fs∈RH×W×(1+C),并设计了一个浅层神经网络利用空间融合特征Fs来学习空间注意力As:
As=Sigmoid(L2(L1(Fs)));
L1和L2分别表示这个小型网络的第一层和第二层卷积层,L1是由一个1×1的卷积层和批正则化层以及ReLU激活函数组成,L1将通道维度缩减到原来的1/r,L2是由的卷积层和批正则化层组合而成,L2将通道维度缩减为1,通过融合局部特征的语义信息和空间拓扑信息来学习空间注意力权重,获得的特征图Xs可以表示为:
Xs=As⊙X;
其中As∈RH×W×1表示空间注意力图,X∈RH×W×C表示输入特征,⊙表示对应空间位置的乘法运算。
优选的,在步骤4中,利用主干网络,提取行人图像的中间特征图X∈RH×W×C,其宽为W,高为H,通道为C,将中间特征图X分割成C个通道,将每一个通道变换为一个大小为H×W的特征向量,将所有通道特征组成一个点集Xc={x1,x2,x3…xC},那么特征点i和特征点j成对的亲和度关系表示为:
fc(·)是一个计算成对特征点之间亲和度的函数,其中和ψ是两个独立的1×1卷积层,其后面连接批正则化层和ReLU激活函数,并将输出维度调整为原来的1/s,那么,经过相似关系加权过的特征向量xai可以表示为:
xi表示点集Xc中的第i个点的特征向量,C表示Xc中包含的点的总数,之后,可以获得经过相似关系加权后的点集将这些特征点按照对应的通道顺序连接起来组合成特征图Xa∈R(HW)×C×1;与空间注意力子模块相似,用同样的方法融合通道语义信息和通道亲和度信息来获取通道融合特征Fc:
Fc=[Pc(Lc(X)),Ac(Xa)]; (9)
Pc表示沿着空间维度的全局平均池化操作,从而将维度缩减到1,Lc和Ac类似于公式4的Ls和Ts,获得通道融合特征Fc∈R1×(1+HW)×C,类似于公式5,通过通道融合特征Fc学习通道注意力Ac,经过通道注意力子模块可以获得特征图Xc:
其中Ac∈R1×1×C表示通道特征图,X∈RH×W×C表示输入特征,表示对应通道上的乘法运算。
优选的,在步骤5中,由于全局注意力模块包含空间注意力子模块和通道注意力子模块,所以其具有三种组合方式,
方式一:将空间注意力子模块和通道注意力子模块并行连接,其输入为中间特征X,则方式一可以表示为:
Xs∥c=Xs+Xc;
方式二:将空间注意力子模块和通道注意力子模块按照顺串行连接,空间注意力子模块的输入为中间特征X,通道注意力子模块的输入是空间注意力子模块的输出Xs,则方式二可表示为:
方式三:将通道注意力子模块和空间注意力子模块按照顺串行连接。通道注意力子模块的输入为中间特征X,空间注意力子模块的输入是通道注意力子模块的输出Xc,则方式三可表示为:
优选的,在步骤6中,基于拓扑信息和亲和度信息引导的全局注意力模块是一个易于嵌入到其他网络中的模块,只需要将全局注意力模块的输入调整为分别调整为四个残差块(conv2_x,conv3_x,conv4_x和conv5_x)输出的中间特征的尺寸相同,即可将该全局注意力模块分别嵌入到ResNet-50的四个残差块之后。
优选的,基于拓扑信息和亲和度信息引导的全局注意力模块采用方式三的组合方式略优于方式一和方式二,对行人重识别基线模型的性能提升更大。
优选的,在步骤1之前还进行数据集的预处理和训练参数的设定,所有行人图像的大小统一调整为256×128,对所有行人图像使用随机裁剪,随机水平翻转,随机擦除等数据增强策略,每小批随机选择32张行人图片,包含8个人,每人4张图片,选用Adam优化器进行训练,总共训练600个周期,并采用预热策略来训练出更好的模型,具体来说,设置初始学习率为8×10-6,并在20个预热期内将初始学习率提高到8×10-4之后,学习率每40个周期以0.5倍衰减,损失函数采用传统的分类损失和三元组损失。
优选的,在步骤6后:使用数据集Market-1501和DukeMTMC-reID数据集对模型进行性能评估。首先选用其中的训练集利用构建的网络模型进行训练,获取对应的行人重识别模型。对训练好的模型提取图库集和查询集中每一个行人图片的特征,通过计算查询集中的行人的特征与图库集中的行人特征的余弦距离,将最相近的几个样本记为查询到的结果集。最终利用查询结果的正确性来评估模型的好坏。在Market-1501数据集中,基线网络ResNet-50上添加本发明的全局注意力模块后,模型的mAP值达到87.8%,模型的Rank-1达到95.8%。在DukeMTMC-reID数据集中,基线网络ResNet-50上添加本发明的全局注意力模块后,模型的mAP值达到78.6%,模型的Rank-1达到88.3%。
与现有技术相比,本发明具有以下有益效果:
(1)本发明一种基于拓扑信息和亲和度信息引导行人重识别方法,采用对聚类有效的多种信息进行融合,来指导注意力的学习,可以大幅地提升网络对于前景行人的关注度,并抑制背景噪声对网络特征提取的干扰。从而提升行人特征的可区分性,提升行人特征对光照变化,局部遮挡,以及相机风格变化等问题的鲁棒性,与现有的行人重识别算法相比具有良好的性能。
(2)本发明一种基于拓扑信息和亲和度信息引导行人重识别方法,提出了两种有益于聚类的全局信息,即空间拓扑信息和通道亲和度信息。在此基础上设计一个基于拓扑信息和亲和度信息引导的全局注意力模块,该全局注意力模块包含空间注意力子模块和通道注意力子模块。空间注意力子模块融合了空间拓扑信息和局部特征的语义信息来指导空间注意力的学习,通道注意力融合了通道亲和度信息和通道语义信息来指导通道注意力的学习。以此来提升行人特征的表征能力,提升行人重识别模型的性能。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的总体网络框图。
图2为本发明的自学习图卷积网络框架图。
图3为本发明的空间注意力子模块框架图。
图4为本发明的亲和度计算框架图。
图5为本发明的通道注意力子模块框架图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例一:
一种基于拓扑信息和亲和度信息引导行人重识别方法,包括以下步骤:
步骤1:利用ResNet-50构建行人重识别模型的主干网络,用于提取行人特征。首先,ResNet-50需要在ImageNet上进行预训练,再去除掉了conv5_x中最后一个空间下采样操作,增加了Ni-dim全连接层进行分类,Ni表示数据集中行人身份的数量。
步骤2:自学习图卷积网络的构建。自学习图卷积网络只需要输入点集中所有点的特征X∈RC×N即可,其中C和N分别表示每一个特征点的维度和点集中特征点的个数。本发明利用两个独立的1×1卷积层来学习成对特征点之间的关系,并利用这些关联信息构建邻接矩阵Als。将N个特征点表示为vi∈RC,其中i=1,……,N。那么Als中第i行,第j列的值可以表示为
其中f1和f2是两个嵌入函数,其通过一个1×1卷积层连接批量正则化层和激活函数ReLU所实现的。f1和f2可以表示为:
其中表示两个独立的1×1卷积层,这两个卷积层的输出设为输入的1/s。所以自学习图卷积可以表示为:
Xt=AlsXW (3)
步骤3:空间注意力子模块的构建。经过主干网络进行特征提取,获得了宽为W,高为H,通道为C的中间特征图X∈RH×W×C。首先,将每一个空间位置上C维向量作为特征点,每一个特征点代表其对应空间位置的局部特征。将这些具有空间局部特征的特征点联合起来形成一个点集Xs={x1,x2,x3…xN},其中N=H×W。将这个点集Xs送入自学习图卷积网络中,进而获得具有拓扑信息的点集将点集中的特征点按照原来的空间位置构建特征图Cs其中表示自学习图卷积网络生成的特征点的维度,Xt表示具有拓扑信息的特征图。为了获得更加全面的信息,将局部特征的语义信息和空间拓扑信息进行融合。由于考虑到这两种信息不属于同一种特征域,需要将它们分别送入1×1的卷积层,并将其拼接获得空间融合特征Fs:
Fs=[Ps(Ls(X)),Ts(Xt)] (4)
Ls和Ts分别表示局部特征和具有拓扑信息的特征图的嵌入函数。该函数是使用带有批正则化层和ReLU激活函数的1×1卷积层。Ls的输出维度设为原来的1/r,Ts的输出维度与原来相同。表示沿着通道方向做平均池化操作,将其维度减小到1。最终获得空间融合特征Fs∈RH×W×(1+C),并设计了一个浅层神经网络利用空间融合特征Fs来学习空间注意力As。
As=Sigmoid(L2(L1(Fs))) (5)
L1和L2分别表示这个小型网络的第一层和第二层卷积层。L1是由一个1×1的卷积层和批正则化层以及ReLU激活函数组成,L1将通道维度缩减到原来的1/r。L2是由的卷积层和批正则化层组合而成,L2将通道维度缩减为1。通过融合局部特征的语义信息和空间拓扑信息来学习空间注意力权重,获得的特征图Xs可以表示为:
Xs=As⊙X (6)
其中As∈RH×W×1表示空间注意力图,X∈RH×W×C表示输入特征,⊙表示对应空间位置的乘法运算。
步骤4:通道注意力子模块的构建,利用主干网络,提取行人图像的中间特征图X∈RH×W×C,其宽为W,高为H,通道为C。将中间特征图X分割成C个通道,将每一个通道变换为一个大小为H×W的特征向量。将所有通道特征组成一个点集Xc={x1,x2,x3…xC}。那么特征点i和特征点j成对的亲和度关系表示为:
fc(·)是一个计算成对特征点之间亲和度的函数。其中和ψ是两个独立的1×1卷积层,其后面连接批正则化层和ReLU激活函数,并将输出维度调整为原来的1/s。那么,经过相似关系加权过的特征向量xai可以表示为:
xi表示点集Xc中的第i个点的特征向量,C表示Xc中包含的点的总数。之后,可以获得经过相似关系加权后的点集将这些特征点按照对应的通道顺序连接起来组合成特征图Xa∈R(HW)×C×1。
与空间注意力子模块相似,用同样的方法融合通道语义信息和通道亲和度信息来获取通道融合特征Fc。
Fc=[Pc(Lc(X)),Ac(Xa)] (9)
Pc表示沿着空间维度的全局平均池化操作,从而将维度缩减到1。Lc和Ac类似于公式4的Ls和Ts,获得通道融合特征Fc∈R1×(1+HW)×C。类似于公式5,通过通道融合特征Fc学习通道注意力Ac。经过通道注意力子模块可以获得特征图Xc。
其中Ac∈R1×1×C表示通道特征图,X∈RH×W×C表示输入特征,表示对应通道上的乘法运算。
步骤5:基于拓扑信息和亲和度信息引导的全局注意力模块组合方式设计。由于本发明设计的全局注意力模块包含空间注意力子模块和通道注意力子模块,所以其具有三种组合方式。
方式一:将空间注意力子模块和通道注意力子模块并行连接,其输入为中间特征X,则方式一可以表示为:
Xs∥c=Xs+Xc (11)
方式二:将空间注意力子模块和通道注意力子模块按照顺串行连接。空间注意力子模块的输入为中间特征X,通道注意力子模块的输入是空间注意力子模块的输出Xs,则方式二可表示为:
方式三:将通道注意力子模块和空间注意力子模块按照顺串行连接。通道注意力子模块的输入为中间特征X,空间注意力子模块的输入是通道注意力子模块的输出Xc,则方式三可表示为:
步骤6:基于拓扑信息和亲和度信息引导的全局注意力模块的嵌入方式设计。基于拓扑信息和亲和度信息引导的全局注意力模块是一个易于嵌入到其他网络中的模块,只需要将全局注意力模块的输入调整为分别调整为四个残差块(conv2_x,conv3_x,conv4_x和conv5_x)输出的中间特征的尺寸相同,即可将该全局注意力模块分别嵌入到ResNet-50的四个残差块之后。
实施例二
如图1所示,本发明提供一种基于拓扑信息和亲和度信息引导行人重识别方法,包括以下步骤:
步骤1:数据集的预处理和训练参数的设定。所有行人图像的大小统一调整为256×128。对所有行人图像使用随机裁剪,随机水平翻转,随机擦除等数据增强策略。每小批随机选择32张行人图片,包含8个人,每人4张图片。选用Adam优化器进行训练,总共训练600个周期,并采用预热策略来训练出更好的模型。具体来说,设置初始学习率为8×10-6,并在20个预热期内将初始学习率提高到8×10-4。之后,学习率每40个周期以0.5倍衰减。损失函数采用传统的分类损失和三元组损失。
步骤2:利用ResNet-50构建行人重识别模型的主干网络,用于提取行人特征。首先,ResNet-50需要在ImageNet上进行预训练,再去除掉了conv5_x中最后一个空间下采样操作,增加了Ni-dim全连接层进行分类,Ni表示数据集中行人身份的数量。
步骤3:自学习图卷积网络的构建。如图2所示,自学习图卷积网络只需要输入点集中所有点的特征X∈RC×N即可,其中C和N分别表示每一个特征点的维度和点集中特征点的个数。本发明利用两个独立的1×1卷积层来学习成对特征点之间的关系,并利用这些关联信息构建邻接矩阵Als。将N个特征点表示为vi∈RC,其中i=1,……,N。那么Als中第i行,第j列的值可以表示为
其中f1和f2是两个嵌入函数,其通过一个1×1卷积层连接批量正则化层和激活函数ReLU所实现的。f1和f2可以表示为:
其中表示两个独立的1×1卷积层,这两个卷积层的输出设为输入的1/s,其中s设定为8。所以自学习图卷积可以表示为:
Xt=AlsXW (3)
步骤4:空间注意力子模块的构建。经过主干网络进行特征提取,获得了宽为W,高为H,通道为C的中间特征图X∈RH×W×C。如图3所示,首先,将每一个空间位置上C维向量作为特征点,每一个特征点代表其对应空间位置的局部特征。将这些具有空间局部特征的特征点联合起来形成一个点集Xs={x1,x2,x3…xN},其中N=H×W。将这个点集Xs送入自学习图卷积网络中,进而获得具有拓扑信息的点集将点集中的特征点按照原来的空间位置构建特征图Cs其中表示自学习图卷积网络生成的特征点的维度,Xt表示具有拓扑信息的特征图。为了获得更加全面的信息,将局部特征的语义信息和空间拓扑信息进行融合。由于考虑到这两种信息不属于同一种特征域,需要将它们分别送入1×1的卷积层,并将其拼接获得空间融合特征Fs:
Fs=[Ps(Ls(X)),Ts(Xt)] (4)
Ls和Ts分别表示局部特征和具有拓扑信息的特征图的嵌入函数。该函数是使用带有批正则化层和ReLU激活函数的1×1卷积层。Ls的输出维度设为原来的1/r,其中r设定为8。Ts的输出维度与原来相同。表示沿着通道方向做平均池化操作,将其维度减小到1。最终获得空间融合特征Fs∈RH×W×(1+C),并设计了一个浅层神经网络利用空间融合特征Fs来学习空间注意力As。
As=Sigmoid(L2(L1(Fs))) (5)
L1和L2分别表示这个小型网络的第一层和第二层卷积层。L1是由一个1×1的卷积层和批正则化层以及ReLU激活函数组成,L1将通道维度缩减到原来的1/r。L2是由的卷积层和批正则化层组合而成,L2将通道维度缩减为1。通过融合局部特征的语义信息和空间拓扑信息来学习空间注意力权重,获得的特征图Xs可以表示为:
Xs=As⊙X (6)
其中As∈RH×W×1表示空间注意力图,X∈RH×W×C表示输入特征,⊙表示对应空间位置的乘法运算。
步骤5:通道注意力子模块的构建,利用主干网络,提取行人图像的中间特征图X∈RH×W×C,其宽为W,高为H,通道为C。如图4所示,将中间特征图X分割成C个通道,将每一个通道变换为一个大小为H×W的特征向量。将所有通道特征组成一个点集Xc={x1,x2,x3…xC}。那么特征点i和特征点j成对的亲和度关系表示为:
fc(·)是一个计算成对特征点之间亲和度的函数。其中和ψ是两个独立的1×1卷积层,其后面连接批正则化层和ReLU激活函数,并将输出维度调整为原来的1/s。那么,经过相似关系加权过的特征向量xai可以表示为:
xi表示点集Xc中的第i个点的特征向量,C表示Xc中包含的点的总数。之后,可以获得经过相似关系加权后的点集将这些特征点按照对应的通道顺序连接起来组合成特征图Xa∈R(HW)×C×1。
与空间注意力子模块相似,用同样的方法融合通道语义信息和通道亲和度信息来获取通道融合特征Fc。
Fc=[Pc(Lc(X)),Ac(Xa)] (9)
Pc表示沿着空间维度的全局平均池化操作,从而将维度缩减到1。Lc和Ac类似于公式4的Ls和Ts,如图5所示,获得通道融合特征Fc∈R1×(1+HW)×C。类似于公式5,通过通道融合特征Fc学习通道注意力Ac。
经过通道注意力子模块可以获得特征图Xc。
其中Ac∈R1×1×C表示通道特征图,X∈RH×W×C表示输入特征,表示对应通道上的乘法运算。
步骤6:基于拓扑信息和亲和度信息引导的全局注意力模块组合方式设计。由于本发明设计的全局注意力模块包含空间注意力子模块和通道注意力子模块,所以其具有三种组合方式,如图1所示。
方式一:将空间注意力子模块和通道注意力子模块并行连接,其输入为中间特征X,则方式一可以表示为:
Xs∥c=Xs+Xc (11)
方式二:将空间注意力子模块和通道注意力子模块按照顺串行连接。空间注意力子模块的输入为中间特征X,通道注意力子模块的输入是空间注意力子模块的输出Xs,则方式二可表示为:
方式三:将通道注意力子模块和空间注意力子模块按照顺串行连接。通道注意力子模块的输入为中间特征X,空间注意力子模块的输入是通道注意力子模块的输出Xc,则方式三可表示为:
优选地,基于拓扑信息和亲和度信息引导的全局注意力模块采用方式三的组合方式略优于方式一和方式二,对行人重识别基线模型的性能提升更大。
步骤7:基于拓扑信息和亲和度信息引导的全局注意力模块的嵌入方式设计。基于拓扑信息和亲和度信息引导的全局注意力模块是一个易于嵌入到其他网络中的模块,只需要将全局注意力模块的输入调整为分别调整为四个残差块(conv2_x,conv3_x,conv4_x和conv5_x)输出的中间特征的尺寸相同,即可将该全局注意力模块分别嵌入到ResNet-50的四个残差块之后。
步骤8:使用数据集Market-1501和DukeMTMC-reID数据集对模型进行性能评估。首先选用其中的训练集利用构建的网络模型进行训练,获取对应的行人重识别模型。对训练好的模型提取图库集和查询集中每一个行人图片的特征,通过计算查询集中的行人的特征与图库集中的行人特征的余弦距离,将最相近的几个样本记为查询到的结果集。最终利用查询结果的正确性来评估模型的好坏。在Market-1501数据集中,基线网络ResNet-50上添加本发明的全局注意力模块后,模型的mAP值达到87.8%,模型的Rank-1达到95.8%。在DukeMTMC-reID数据集中,基线网络ResNet-50上添加本发明的全局注意力模块后,模型的mAP值达到78.6%,模型的Rank-1达到88.3%。
本发明一种基于拓扑信息和亲和度信息引导行人重识别方法,采用对聚类有效的多种信息进行融合,来指导注意力的学习,可以大幅地提升网络对于前景行人的关注度,并抑制背景噪声对网络特征提取的干扰。从而提升行人特征的可区分性,提升行人特征对光照变化,局部遮挡,以及相机风格变化等问题的鲁棒性,与现有的行人重识别算法相比具有良好的性能。提出了两种有益于聚类的全局信息,即空间拓扑信息和通道亲和度信息。在此基础上设计一个基于拓扑信息和亲和度信息引导的全局注意力模块,该全局注意力模块包含空间注意力子模块和通道注意力子模块。空间注意力子模块融合了空间拓扑信息和局部特征的语义信息来指导空间注意力的学习,通道注意力融合了通道亲和度信息和通道语义信息来指导通道注意力的学习。以此来提升行人特征的表征能力,提升行人重识别模型的性能。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化;凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,包括以下步骤:
步骤1:利用ResNet-50构建行人重识别模型的主干网络,用于提取行人特征;
步骤2:自学习图卷积网络的构建,其用于空间拓扑信息的挖掘;自学习图卷积网络只需要输入点集中所有点的特征X∈RC×N即可,其中C和N分别表示每一个特征点的维度和点集中特征点的个数;
步骤3:空间注意力子模块的构建,其利用空间拓扑信息和局部特征的语义信息相融合来指导空间注意力的学习;
步骤4:通道注意力子模块的构建,其利用通道亲和度信息和通道语义信息相融合来指导通道注意力的学习;
步骤5:对基于拓扑信息和亲和度信息引导的全局注意力模块组合方式设计与实现;
步骤6:对基于拓扑信息和亲和度信息引导的全局注意力模块进行嵌入方式设计;
在步骤3中,首先,经过主干网络进行特征提取,获得了宽为W,高为H,通道为C的中间特征图X∈RH×W×C,将每一个空间位置上C维向量作为特征点,每一个特征点代表其对应空间位置的局部特征,将这些具有空间局部特征的特征点联合起来形成一个点集Xs={x1,x2,x3LxN},其中N=H×W;将这个点集Xs送入自学习图卷积网络中,进而获得具有拓扑信息的点集将点集中的特征点按照原来的空间位置构建特征图Cs其中表示自学习图卷积网络生成的特征点的维度,Xt表示具有拓扑信息的特征图,为了获得更加全面的信息,将局部特征的语义信息和空间拓扑信息进行融合,由于这两种信息不属于同一种特征域,需要将它们分别送入1×1的卷积层,并将其拼接获得空间融合特征Fs:
Fs=[Ps(Ls(X)),Ts(Xt)];
Ls和Ts分别表示局部特征和具有拓扑信息的特征图的嵌入函数,该函数是使用带有批正则化层和ReLU激活函数的1×1卷积层,Ls的输出维度设为原来的1/r,Ts的输出维度与原来相同,表示沿着通道方向做平均池化操作,将其维度减小到1,最终获得空间融合特征Fs∈RH×W×(1+C),并设计了一个浅层神经网络利用空间融合特征Fs来学习空间注意力As:
As=Sigmoid(L2(L1(Fs)));
L1和L2分别表示这个小型网络的第一层和第二层卷积层,L1是由一个1×1的卷积层和批正则化层以及ReLU激活函数组成,L1将通道维度缩减到原来的1/r,L2是由的卷积层和批正则化层组合而成,L2将通道维度缩减为1,通过融合局部特征的语义信息和空间拓扑信息来学习空间注意力权重,获得的特征图Xs可以表示为:
Xs=As e X;
其中As∈RH×W×1表示空间注意力图,X∈RH×W×C表示输入特征,e表示对应空间位置的乘法运算;
在步骤4中,利用主干网络,提取行人图像的中间特征图X∈RH×W×C,其宽为W,高为H,通道为C;将中间特征图X分割成C个通道,将每一个通道变换为一个大小为H×W的特征向量,将所有通道特征组成一个点集Xc={x1,x2,x3L xC},那么特征点i和特征点j成对的亲和度关系表示为:
fc(g)是一个计算成对特征点之间亲和度的函数,其中和ψ是两个独立的1×1卷积层,其后面连接批正则化层和ReLU激活函数,并将输出维度调整为原来的1/s,那么,经过相似关系加权过的特征向量xai可以表示为:
xi表示点集Xc中的第i个点的特征向量,C表示Xc中包含的点的总数,之后,可以获得经过相似关系加权后的点集将这些特征点按照对应的通道顺序连接起来组合成特征图Xa∈R(HW)×C×1;
与空间注意力子模块相似,用同样的方法融合通道语义信息和通道亲和度信息来获取通道融合特征Fc:
Fc=[Pc(Lc(X)),Ac(Xa)]; (1)
Pc表示沿着空间维度的全局平均池化操作,从而将维度缩减到1,Lc和Ac类似于公式4的Ls和Ts,获得通道融合特征Fc∈R1×(1+HW)×C,类似于公式5,通过通道融合特征Fc学习通道注意力Ac,经过通道注意力子模块可以获得特征图Xc:
其中Ac∈R1×1×C表示通道特征图,X∈RH×W×C表示输入特征,表示对应通道上的乘法运算。
2.根据权利要求1所述一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,在步骤1中,ResNet-50需要在ImageNet上进行预训练,再去除掉了conv5_x中最后一个空间下采样操作,增加了Ni-dim全连接层进行分类,Ni表示数据集中行人身份的数量。
3.根据权利要求1所述一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,在步骤2中,利用两个独立的1×1卷积层来学习成对特征点之间的关系,并利用这些关联信息构建邻接矩阵Als,将N个特征点表示为vi∈RC,其中i=1,……,N,那么Als中第i行,第j列的值可以表示为
其中f1和f2是两个嵌入函数,其通过一个1×1卷积层连接批量正则化层和激活函数ReLU所实现的,f1和f2可以表示为:
f1(vi)=ReLU(BN(θ(vi)))
f2(vj)=ReLU(BN(φ(vj)))
其中表示两个独立的1×1卷积层,这两个卷积层的输出设为输入的1/s,所以自学习图卷积可以表示为:
Xt=AlsXW。
4.根据权利要求1-3任一项所述一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,在步骤5中,由于全局注意力模块包含空间注意力子模块和通道注意力子模块,所以其组合方式为:
将空间注意力子模块和通道注意力子模块并行连接,其输入为中间特征X,则方式可以表示为:
Xs∥c=Xs+Xc。
5.根据权利要求1-3任一项所述一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,在步骤5中,由于全局注意力模块包含空间注意力子模块和通道注意力子模块,所以其组合方式为:
将空间注意力子模块和通道注意力子模块按照顺串行连接,空间注意力子模块的输入为中间特征X,通道注意力子模块的输入是空间注意力子模块的输出Xs,则方式可以表示为:
6.根据权利要求1-3任一项所述一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,在步骤5中,由于全局注意力模块包含空间注意力子模块和通道注意力子模块,所以其组合方式为:
将通道注意力子模块和空间注意力子模块按照顺串行连接,通道注意力子模块的输入为中间特征X,空间注意力子模块的输入是通道注意力子模块的输出Xc,则方式可表示为:
7.根据权利要求1所述一种基于拓扑信息和亲和度信息引导行人重识别方法,其特征在于,在步骤6中,基于拓扑信息和亲和度信息引导的全局注意力模块是一个易于嵌入到其他网络中的模块,只需要将全局注意力模块的输入调整为分别调整为四个残差块(conv2_x,conv3_x,conv4_x和conv5_x)输出的中间特征的尺寸相同,即可将该全局注意力模块分别嵌入到ResNet-50的四个残差块之后。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110469260.3A CN114782977B (zh) | 2021-04-28 | 2021-04-28 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110469260.3A CN114782977B (zh) | 2021-04-28 | 2021-04-28 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782977A CN114782977A (zh) | 2022-07-22 |
CN114782977B true CN114782977B (zh) | 2024-07-05 |
Family
ID=82407652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110469260.3A Active CN114782977B (zh) | 2021-04-28 | 2021-04-28 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782977B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311105B (zh) * | 2023-05-15 | 2023-09-19 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
CN116704453B (zh) * | 2023-08-08 | 2023-11-28 | 山东交通学院 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
CN116912635B (zh) * | 2023-09-12 | 2024-06-07 | 深圳须弥云图空间科技有限公司 | 目标追踪方法及装置 |
CN117475474B (zh) * | 2023-10-30 | 2024-10-15 | 中国矿业大学 | 一种用于智能安防的跨模态行人重识别系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539370A (zh) * | 2020-04-30 | 2020-08-14 | 华中科技大学 | 一种基于多注意力联合学习的图像行人重识别方法和系统 |
CN111652035A (zh) * | 2020-03-30 | 2020-09-11 | 武汉大学 | 一种基于ST-SSCA-Net的行人重识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295208B2 (en) * | 2017-12-04 | 2022-04-05 | International Business Machines Corporation | Robust gradient weight compression schemes for deep learning applications |
CN111259850B (zh) * | 2020-01-23 | 2022-12-16 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN112507853B (zh) * | 2020-12-02 | 2024-05-14 | 西北工业大学 | 一种基于互注意力机制的跨模态行人重识别方法 |
-
2021
- 2021-04-28 CN CN202110469260.3A patent/CN114782977B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652035A (zh) * | 2020-03-30 | 2020-09-11 | 武汉大学 | 一种基于ST-SSCA-Net的行人重识别方法及系统 |
CN111539370A (zh) * | 2020-04-30 | 2020-08-14 | 华中科技大学 | 一种基于多注意力联合学习的图像行人重识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114782977A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114782977B (zh) | 一种基于拓扑信息和亲和度信息引导行人重识别方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
Ren et al. | Multi-modal uniform deep learning for RGB-D person re-identification | |
CN110008842A (zh) | 一种基于深度多损失融合模型的行人重识别方法 | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
CN109598268A (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN115830637B (zh) | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
CN113139501B (zh) | 一种联合局部区域检测与多级特征抓取的行人多属性识别方法 | |
CN115661754B (zh) | 一种基于维度融合注意力的行人重识别方法 | |
CN115205903B (zh) | 一种基于身份迁移生成对抗网络的行人重识别方法 | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
Yaseen et al. | A novel approach based on multi-level bottleneck attention modules using self-guided dropblock for person re-identification | |
Gao et al. | Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition | |
CN109214442A (zh) | 一种基于列表和身份一致性约束的行人重识别算法 | |
CN115393788A (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
CN114005142A (zh) | 基于多尺度和注意特征聚合的行人重识别模型及识别方法 | |
Fang et al. | Pedestrian attributes recognition in surveillance scenarios with hierarchical multi-task CNN models | |
Gong et al. | Person re-identification based on two-stream network with attention and pose features | |
CN116343294A (zh) | 一种适用于领域泛化的行人重识别方法 | |
CN112989359B (zh) | 针对基于三元组损失的行人重识别模型的后门攻击方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |