CN117011566A - 一种目标检测方法、检测模型训练方法、装置及电子设备 - Google Patents
一种目标检测方法、检测模型训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117011566A CN117011566A CN202210873136.8A CN202210873136A CN117011566A CN 117011566 A CN117011566 A CN 117011566A CN 202210873136 A CN202210873136 A CN 202210873136A CN 117011566 A CN117011566 A CN 117011566A
- Authority
- CN
- China
- Prior art keywords
- scale
- image
- target
- context information
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 39
- 238000011176 pooling Methods 0.000 claims description 37
- 238000012512 characterization method Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000006855 networking Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 21
- 238000013527 convolutional neural network Methods 0.000 description 17
- 230000003993 interaction Effects 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 7
- 241000196324 Embryophyta Species 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 6
- 230000004931 aggregating effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 235000019587 texture Nutrition 0.000 description 2
- 101100340248 Arabidopsis thaliana SCRM gene Proteins 0.000 description 1
- 241000195940 Bryophyta Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241000985694 Polypodiopsida Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测方法、检测模型训练方法、装置及电子设备,方法包括:从待检测图像中提取初始局部区域特征,从待检测图像中提取全局上下文信息;根据全局上下文信息获取待检测图像的多个尺度下的单尺度上下文信息;根据每个单尺度上下文信息与初始局部区域特征,确定多个尺度的单尺度上下文区域特征;将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征;对目标区域特征进行识别,得到待检测图像中各个目标区域的目标类别信息,方法可以提高目标检测的准确度,并进一步提高小目标检测的准确性,可以应用于计算机视觉技术领域,以及云计算、车联网等衍生技术领域。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其是一种目标检测方法、检测模型训练方法、装置及电子设备。
背景技术
目标检测主要是对图像或视频中存在的对象进行定位,并给出对象的具体类别。近年来,基于深度卷积神经网络技术,目标对象检测取得了长足进步,广泛应用在智能驾驶、复杂场景识别、智能搜索、智能认证等领域。例如,智能汽车需要在决策控制之前检测出前方的障碍物;智能交互系统需要在识别相关手势和指令之前检测出需要交互的人;游戏测试中需要检测到复杂界面场景上出现的各个虚拟对象,以便后续对其动作指令或实时状态等信息进行检测。
但是,目前的方法通常基于目标图像或者目标视频中的局部视觉特征来进行检测,例如提取ROI(Regions of Interest,感兴趣)区域来进行检测,这种方式通常只能在局部特征与全局背景特征之间区别度较大时起到较佳检测效果,当局部与全局背景之间区别度小,例如在黑夜场景下,目标视频的各帧图像中待检测目标对象与整幅图像的背景颜色和亮度相近、边界不明显,这就很难基于局部区域的ROI特征来进行目标检测,检测准确性较低。
发明内容
有鉴于此,本发明实施例提供一种检测准确性高的目标检测方法、检测模型训练方法、装置及电子设备,以提高在部分复杂场景下对目标对象的检测精度。
本发明实施例的一方面提供了一种目标检测方法,该方法包括以下步骤:
获取待检测图像;
从所述待检测图像中提取初始局部区域特征,并从所述待检测图像中提取全局上下文信息;
根据所述全局上下文信息获取所述待检测图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
对所述目标区域特征进行识别,得到所述待检测图像中各个目标区域对应的目标类别信息。
在一种可能实现方式中,所述从所述待检测图像中提取全局上下文信息,包括:
根据预设的下采样率,通过深度残差网络对所述待检测图像进行视觉特征提取;
根据所述视觉特征提取确定的通道维度、空间高度以及空间宽度,得到深度残差网络输出的卷积特征图;
根据所述卷积特征图,确定所述全局上下文信息。
在一种可能实现方式中,所述根据所述全局上下文信息获取所述待检测图像的多尺度上下文信息,包括:
配置每个单尺度上下文信息对应的尺度大小;
根据每个尺度大小,将所述全局上下文信息中对应当前尺度大小的区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息;
根据所有尺度大小对应的单尺度上下文信息,确定所述多尺度上下文信息。
在一种可能实现方式中,所述根据每个尺度大小,将所述全局上下文信息中对应当前尺度大小的区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息,包括:
依次获取各个尺度大小作为当前尺度大小;
根据所述当前尺度大小,从所述全局上下文信息中确定待池化区域;
通过最大池化处理或者平均池化处理,对所述待池化区域进行池化聚合,得到所述当前尺度大小对应的单尺度上下文信息;
其中,所述单尺度上下文信息中每个位置的信息表征对应待池化区域中所有位置的信息。
在一种可能实现方式中,所述根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征,包括:
确定每个所述单尺度上下文信息对应的卷积特征图;
计算所述卷积特征图中各个位置对所述初始局部区域特征的影响值;
根据所述影响值和所述卷积特征图中各个位置的表征向量进行上下文聚合计算,得到所述卷积特征图对应的单尺度上下文区域特征。
在一种可能实现方式中,所述计算所述卷积特征图中各个位置对所述初始局部区域特征的影响值,包括:
对所述卷积特征图中各个位置的表征向量进行第一降维处理,并对所述初始局部区域特征的表征向量进行第二降维处理;
根据所述卷积特征图的空间高度和空间宽度,构建归一化因子;
根据所述归一化因子对所述第一降维处理的结果和所述第二降维处理的结果进行归一化处理,确定所述卷积特征图中各个位置对所述初始局部区域特征的影响值。
在一种可能实现方式中,所述根据所述影响值和所述卷积特征图中各个位置的表征向量进行上下文聚合计算,得到所述卷积特征图对应的单尺度上下文区域特征,包括:
当所述待检测图像中提取的初始局部区域为一个时,将所述影响值与所述卷积特征图中各个位置的表征向量相乘,得到各个位置的区域特征向量;将每个位置的区域特征向量进行组合,得到所述卷积特征图对应的单尺度上下文区域特征;
当所述待检测图像中提取的初始局部区域为多个时,将所述影响值与所述卷积特征图中各个局部区域的表征向量相乘,得到各个局部区域的区域特征向量;将各个局部区域的区域特征向量进行组合,得到所述卷积特征图对应的单尺度上下文区域特征。
另一方面,本发明实施例还公开了一种目标检测方法,该方法包括以下步骤:
响应于检测指令,获取待检测图像,并向目标服务器发送所述待检测图像,以使所述目标服务器对所述待检测图像进行目标检测,识别得到所述待检测图像中各个目标区域对应的目标类别信息;
接收所述目标服务器识别到的目标类别信息,显示目标检测结果;
其中,所述目标类别信息根据第一方面实施例提供的目标检测方法确定。
另一方面,本发明实施例还公开了一种检测模型训练方法,该方法包括以下步骤:
获取图像训练集;
从所述图像训练集的各个样本图像中提取初始局部区域特征,并从各个所述样本图像中提取全局上下文信息;
根据所述全局上下文信息获取所述样本图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
对所述目标区域特征进行识别,得到所述样本图像中各个目标区域对应的预测类别信息;
根据所述预测类别信息与所述样本图像中各个目标区域的正确类别信息,计算所述预测类别信息的损失值,并根据所述损失值对检测模型的参数进行修正。
另一方面,本发明实施例还公开了一种目标检测装置,该装置包括:
第一模块,用于获取待检测图像;
第二模块,用于从所述待检测图像中提取初始局部区域特征,并从所述待检测图像中提取全局上下文信息;
第三模块,用于根据所述全局上下文信息获取所述待检测图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
第四模块,用于根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
第五模块,用于将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
第六模块,用于对所述目标区域特征进行识别,得到所述待检测图像中各个目标区域对应的目标类别信息。
另一方面,本发明实施例还公开了一种目标检测装置,该装置包括:
第七模块,用于响应于检测指令,获取待检测图像,并向目标服务器发送所述待检测图像,以使所述目标服务器对所述待检测图像进行目标检测,识别得到所述待检测图像中各个目标区域对应的目标类别信息;
第八模块,用于接收所述目标服务器识别到的目标类别信息,显示目标检测结果;
其中,所述目标类别信息根据前面所述的目标检测方法确定。
另一方面,本发明实施例还公开了一种检测模型训练装置,该装置包括:
第九模块,用于获取图像训练集;
第十模块,用于从所述图像训练集的各个样本图像中提取初始局部区域特征,并从各个所述样本图像中提取全局上下文信息;
第十一模块,用于根据所述全局上下文信息获取所述样本图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
第十二模块,用于根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
第十三模块,用于将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
第十四模块,用于对所述目标区域特征进行识别,得到所述样本图像中各个目标区域对应的预测类别信息;
第十五模块,用于根据所述预测类别信息与所述样本图像中各个目标区域的正确类别信息,计算所述预测类别信息的损失值,并根据所述损失值对检测模型的参数进行修正。
另一方面,本发明实施例还公开了一种电子设备,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如前述的目标检测方法或者如前述的检测模型训练方法。
此外,本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的目标检测方法或者检测模型训练方法。
本发明实施例从待检测图像中提取初始局部区域特征,并从待检测图像中提取全局上下文信息,本发明实施例在进行目标检测的时候结合了图像的全局上下文信息,在现有仅采用局部区域特征进行目标识别的基础上,能够参考局部区域之外的其他全局信息进行目标检测,不局限于局部特征信息,提高了检测的准确精度;进一步地,本发明实施例根据全局上下文信息获取待检测图像的多尺度上下文信息,根据每个单尺度上下文信息与初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征,将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征;对目标区域特征进行识别,得到待检测图像中各个目标区域对应的目标类别信息,相较于全局上下文信息配合局部区域特征的目标检测过程,本发明实施例进一步根据全局上下文信息获取到不同尺度下的单尺度上下文区域特征,能够进一步利用不同空间尺度的特征来进行目标检测,当待检测目标为小目标时,本发明的多尺度上下文区域特征能够更加准确检测到小目标,进一步提高了目标检测准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例进行目标检测的实施环境示意图;
图2为本发明实施例中所提供的一种目标检测方法的步骤流程示意图;
图3为本发明实施例中所提供的提取全局上下文信息的过程示意图;
图4为本发明实施例中所提供的获取多尺度上下文信息的过程示意图;
图5为本发明实施例中所提供的获取单尺度上下文信的过程示意图;
图6为本发明实施例中所提供的确定多个不同尺度下的单尺度上下文区域特征的过程示意图;
图7为本发明实施例中所提供的计算影响值的过程示意图;
图8为本发明实施例中所提供的根据影响值得到单尺度上下文区域特征的过程示意图;
图9为本发明实施例中目标检测的完整架构示意图;
图10为本发明实施例中游戏界面示意图;
图11为本发明实施例中一种检测模型训练方法的步骤流程示意图;
图12为本发明实施例中进行游戏测试场景的实施环境示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。
在对本发明实施例进行详细说明之前,对本发明实施例中可能涉及的技术名词进行必要的解释说明:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习、自动驾驶、智慧交通等方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像语义分割、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自注意力机制(Self Attention Mechanism)作用是能够更好地学习到全局特征之间的依赖关系,自注意力机制通过直接计算图结构中任意两个节点之间的关系,一步到位地获取图结构的全局几何特征。自注意力机制利用attention机制,分三个阶段进行计算:(1)引入不同的函数和计算机制,根据查询(Query)和某个关键字或关键词(Key),计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量相似性或者通过再引入额外的神经网络来求值;(2)引入激活函数(Softmax)的计算方式对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过Softmax的内在机制更加突出重要元素的权重;(3)第二阶段的计算结果即为对应的权重系数,然后进行加权求和即可得到attention数值。
在此基础上,对发明中可能涉及的特征概念进行解释说明:
尺度空间(SIFT,Scale-invariant feature transform);自然界中的物体随着观测尺度不同有不同的表现形态。尺度空间中各尺度图像的模糊程度逐渐变大,能够模拟人在距离目标由近到远时目标在视网膜上的形成过程。故而,尺度越大图像越模糊。而图像尺度空间是一种局部特征,可在图像中检测出关键点,SIFT特征提取分为在图片上寻找关键点和提取关键点邻域信息两部分,在提取特征时只关注稳定的关键点及其附近的信息,使得特征更加具有描述性。
多尺度信息,是对信号的不同粒度的采样后呈现得不同信息,通常在不同的尺度下我们可以观察到不同的特征,从而完成不同的任务。通常来说粒度更小/更密集的采样信息可以看到更多的细节,粒度更大/更稀疏的采样信息可以看到整体的趋势。
语义/空间上下文信息,是通过捕捉不同的对象之间的相互作用信息,对象与场景之间的相互作用信息作为条件来对新目标进行识别、处理。
感兴趣区域(ROI,region of interest),在机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域。
基于上述的理论基础,以及人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可以理解的是,本发明实施例提供的目标检测方法,是能够应用于任意一种具备数据处理计算能力计算机设备,而这一计算机设备可以是各类终端或是服务器。当实施例中的计算机设备是服务器时,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑以及台式计算机等,但也并不局限于此。
需要进一步补充说明的是,本发明实施例中所涉及终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
在一些可能实现方式中,能够实现本申请实施例所提供的目标检测方法或者一种目标检测模型训练方法的计算机程序,可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。
以游戏场景中的目标检测过程为例,基于多个计算机设备能够组成区块链系统,本发明实施例中实现目标检测方法的计算机设备可以是区块链系统中的节点。该节点中存储中有机器学习模型,该机器学习模型通过获取目标对象的游戏界面截图的不同尺度的单尺度上下文信息,以在获取不同尺度下的单尺度上下文区域特征时,通过不同尺度的单尺度上下文信息提供原始局部区域特征未包含的信息,并结合原始局部区域特征确定目标区域特征,从而可以识别得到游戏界面截图上各个目标区域对应的目标类别信息。该节点或者该区块链中的其他设备对应的节点还能够存储游戏界面截图、目标类型信息、以及在预测过程中得到其他中间特征数据等等。
如图1所示,是发明实施例提供的一种实施环境示意图。参照图1,该实施环境包括至少一个终端101和服务器102。终端101和服务器102之间可以通过无线或者有线的方式进行网络连接,完成数据传输交换。其中,终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端101上安装和运行有支持图像显示的应用程序。服务器102是目标检测应用的后台服务器,或者是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在图1所示的实施环境的基础上,本发明实施例还提供了一种目标检测模型的训练场景。该目标检测模型通过双模全局上下文网络(DMGCN,Double Module GlobalContext Network)来提高检测结果的准确度。该双模全局上下文网络包括空间上下文表示模块(SCRM,Space Context Representation Module)和至少一个空间上下文依赖模块(SCDM,Space Context Dependent Module)。其中,空间上下文表示模块主要用于构建多尺度上下文表示,该模块可以通过获取前一处理步骤得到的全局上下文,即多尺度上下文,根据金字塔尺度变换的原理,对多尺度上下文进行平均池化处理得到单个尺度的上下文表示;需要说明的是,进行多尺度上下文表示过程中的尺度变换可以选择金字塔的尺度变换,或者其他可行的尺度变换方式,在此不进行枚举。空间上下文依赖模块,主要根据空间上下文表示模块输出的单尺度上下文表示,以及预先处理得到的感兴趣区域ROI进行依赖度计算,同时根据ROI进行上下文聚合生成单尺度上下文ROI特征,并将这一单尺度上下文ROI特征进行特征融合得到多尺度上下文ROI特征;进一步地,根据依赖度计算的结果将并行的多尺度上下文ROI特征和预先处理得到的ROI特征连接起来进行分类。需要说明的是,本发明实施例中赖度计算的过程可以是亲和力的计算或者是其他能够体现特征信息之间影响程度的权重计算过程;空间上下文表示模块前序处理得到的全局上下文可以是通过例如卷积神经网络(CNN,Convolutional Neural Networks)模型进行图像的视觉特征得到的卷积特征图,该卷积特征图能够表征上下文信息;而在得到卷积特征图之后,实施例可以通过区域候选网络(RPN,Region Proposal Network)对卷积特征图中的候选特征进行识别,并通过方框标注的方式进行目标物的框选,得到感兴趣区域ROI,作为空间上下文依赖模块的输入之一。
需要补充说明的是,在该场景中,服务器中存储有大量游戏终端运行游戏时上传的历史游戏界面截图,将多张历史游戏界面截图组成图像训练集,并将图像训练集输入到目标检测模型中,目标检测模型先提取图像训练集内每个样本图像中用于表征每个像素与周围像素之间的关联关系的全局上下文信息,以及提取每个样本图像中感兴趣区域的特征;然后将全局上下文信息输入空间上下文表示模块,输出得到用于表征多个不同尺度的单尺度上下文信息,并将所有单尺度上下文信息和感兴趣区域的特征输入空间上下文依赖模块,输出得到用于表征多个不同尺度的单尺度上下文区域特征,根据所有单尺度上下文区域特征连接感兴趣区域的特征得到目标区域特征,然后预测得到目标区域特征对用的类别,并根据预测得到的类别计算损失值,根据损失值对目标检测模型的参数进行优化调整,从而得到训练完成后的目标检测模型。
在图1所示的实施环境的基础上,本发明实施例还提供了一种目标检测的场景。在该场景中,在获取了游戏测试玩家的对象授权的情况下,服务器通过与搭载了游戏客户端的终端设备进行数据交互,获取游戏终端运行游戏时的游戏界面截图。在服务器中存储有已经训练好的目标检测模型。将游戏界面截图输入到目标检测模型,以通过目标检测模型提取游戏界面截图的全局上下文信息和多尺度上下文区域特征,以在进行目标分类时,可以提供多尺度的特征信息,从而提高分类结果的准确度。
如图2所示,是本发明实施例提供的一种目标检测方法的步骤流程图,该目标检测方法的执行主体可以是前述的任意一种计算机设备。参照图2,该方法包括以下步骤:
S201、获取待检测图像。
其中,待检测图像可以是游戏界面图像、车辆图像、人脸图像以及动植物图像等,也可以是其他类型的图像。示例性地,以游戏测试场景为例,目标检测对象能够将不同型号的游戏终端通过连接线与检测终端进行连接。目标检测对象通过检测终端在不同型号的游戏终端上安装待测试的游戏应用程序。在游戏应用程序安装完成之后,检测终端控制游戏终端上安装的游戏应用程序进行启动。响应于游戏检测指令,检测终端控制游戏应用程序跳转至待检测界面。检测终端控制游戏终端对待检测界面进行截图,得到待检测图像。需要说明的是,游戏终端截取的游戏界面图像可以是一帧图像,也可以是多帧图像。游戏终端在截取到图像帧后,可以通过无线传输的方式传输到检测终端,检测终端在进行目标检测时,将获取的帧图像作为待检测图像。
S202、从待检测图像中提取初始局部区域特征,并从待检测图像中提取全局上下文信息。
其中,局部区域可以理解为局部感兴趣区域(RoI,Regions of Interest),也可以理解为原始图像的提议区域。局部区域特征是指该局部感兴趣区域内的图像特征。示例性地,当游戏界面截图中包括英雄、小兵等多个游戏对象,则可以通过方框(bbox,boundingbox)标注出其中一个或多个目标游戏对象所在区域作为局部感兴趣区域,局部区域特征是指该目标游戏对象所在区域内的图像特征。本实施例中,可以通过将待检测图像输入到卷积神经网络中,输出得到待检测图像的图像特征,然后通过区域候选网络(RPN,RegionProposal Network)确定待检测图像上的局部区域作为局部感兴趣区域,将该局部感兴趣区域对应的图像特征作为局部区域特征。
在计算机视觉领域中,上下文信息可以包括语义上下文信息、空间上下文信息和尺度上下文信息和尺度上下文信息。语义上下文信息和空间上下文信息都可以理解为不同对象之间的相互作用信息、对象与场景之间的相互作用信息。示例性地,在一游戏场景中,在一帧游戏界面截图中,全局上下文信息包括该游戏界面截图中不同游戏对象之间的相互作用信息和游戏对象与背景之间的相互作用信息。
示例性地,在一游戏场景中,当游戏终端运行游戏时,游戏终端在目标界面中截图并发送到服务器。服务器内预先存储有卷积神经网络(CNN,Convolutional NeuralNetworks)。该卷积神经网络对目标游戏界面截图进行卷积操作,以提取目标游戏界面截图上的特征。其中,卷积神经网络内的卷积层通过卷积处理,不断在目标游戏界面的截图上进行滑动运算得到对应的内积结果,在内积结果上取每一局部块的最大值进行池化操作,从而得到目标游戏界面截图对应的不同局部区域上的特征。
S203、根据全局上下文信息获取待检测图像的多尺度上下文信息。
其中,图像的尺度是指图像内容的粗细程度。尺度是用来模拟目标对象距离物体远近的程度。可以理解的是,目标对象距离越远,看到物体可能只有一个大概的轮廓;目标对象距离越近,更可能看到物体的细节信息。示例性地,以道路路况检测的实施场景为例,在一车辆驾驶的障碍物检测场景中,车载摄像头实时获取车辆前方的图像,将该图像转化为频域图像后,图像的粗细程度代表该图像频域信息的低频成分和高频成分。粗质图像代表信息大部分都集中在低频段,存在有少量的高频信息。细致图像代表信息成分丰富,高低频段的信息都有。图像的尺度空间是指同一张图像不同尺度的集合。多尺度是指不同空间大小。本实施例通过以不同尺度大小分别提取待检测图像中的全局上下文信息,得到不同尺度下的上下文信息。示例性地,以车辆图像为例,不同尺度分别包括1.0、2.0和3.0,则分别提取尺度为1.0时车辆图像对应的单尺度上下文信息,提取尺度为2.0时车辆图像对应的单尺度上下文信息,提取尺度为3.0时车辆图像对应的单尺度上下文信息,将尺度分别为1.0、2.0和3.0对应的单尺度上下文信息组合成多尺度上下文信息,从而可以从不同尺度上提取得到上下文信息。
S204、根据每个单尺度上下文信息与初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征,将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征。
其中,将单尺度上下区域特征进行连接处理的过程,可以采用concat()函数连接两个或多个信息。concat()的连接过程不会改变现有信息量,仅仅生成一个连接后的副本信息。本实施例在得到多个单尺度上下文信息和初始局部区域特征后,可以通过该两个信息之间的相互关系,生成多个不同尺度上下文信息。然后通过concat()将各个单尺度上下文区域特征连接成多尺度上下文区域特征,从而可以通过多尺度上下文区域特征提供初始局部区域特征之外的特征,进而得到更加准确的目标区域特征。本实施例中,多尺度上下文区域特征与原始的局部区域特征具有相同的通道维度。
S205、对目标区域特征进行识别,得到待检测图像中各个目标区域对应的目标类别信息。
其中,在步骤S204中得到目标区域特征后,将目标区域特征输入到全连接层,以通过全连接层得到对目标区域特征进行分类。可以理解的是,全连接层的所有神经元都由权重连接,当前面的卷积层抓取到足够的特征后,全连接层即能对待检测目标对象进行分类。需要说明的是,本实施例的全连接层包括一个带有ReLU激活函数的线性层,用于预测标签。
为了提高全局上下文信息提取的准确度,在一些可行的实施例中,如图3所示,在从待检测图像中提取全局上下文信息这一步骤中,可以包括步骤S2021-S2023:
S2021、根据预设的下采样率,通过深度残差网络对待检测图像进行视觉特征提取;
其中,下采样是指缩小图像或降采样。下采样率则是指缩小图像的倍数。示例性地,以摄像头采集的目标人物图像为例,目标人物图像的尺寸为M*N,则当预设下采样率为2时,对目标任务图像进行下采样后得到尺寸为(M/2)*(N/2)的图像。本实施例为了得到全局上下文信息,可以将下采样率设置为待检测图像与全局上下文信息之间的步幅,然后通过深度残差网络(ResNet,Deep Residual Network)对待检测图像进行视觉特征提取。可以理解的是,深度残差网络有很多旁路的支线将输入直接连到后面的层,使得后面的层可以直接学习残差。示例性地,视觉特征可以包括待检测图像上的颜色、轮廓、纹理、空间关系等信息。
S2022、根据视觉特征提取确定的通道维度、空间高度以及空间宽度,得到深度残差网络输出的卷积特征图;
其中,通道是对图像特征的检测,通道数值的强弱能够反映当前特征的强弱。通道维度是指深度残差网络中卷积核的输入通道数,空间高度是指深度残差网络中卷积核高度,空间宽度是指深度残差网络中卷积核宽度。输入通道数是与输入图像对应的矩阵维度。卷积特征图可以用于表示全局上下文中各个像素之间的关系。
S2023、根据卷积特征图,确定全局上下文信息。
示例性地,在一车辆行驶过程中目标对象的识别场景中,通过车载终端获取目标车辆在行驶过程中的周围环境图像,然后将周围环境图像发送到服务器,服务器中预先存储有深度残差网络。深度残差网络根据周围环境图像与全局上下文之间的步幅D对周围环境图像进行视觉特征提取,其中,步幅D也可以理解为深度残差网络的下采样率,然后,根据视觉特征提取过程设置深度残差网络的通道维度为C、空间高度为H和空间宽度为W。将周围环境图像输入到深度残差网络后,可以输出得到表示全局上下文的卷积特征图像X∈RC×H×W,此时,卷积特征图像X中每个位置可能代表一个包含D×D周围环境图像的像素,然后根据每个位置可能代表的像素确定周围环境图像中的全局上下文信息,从而可以在进行目标识别时,提供局部区域特征之外的其他局部区域特征信息。
为了提取更多尺度对应的上下文信息,在一些可行的实施例中,如图4所示,在根据全局上下文信息获取待检测图像的多尺度上下文信息这一步骤中,可以包括步骤S2031-S2033:
S2031、配置每个单尺度上下文信息对应的尺度大小;
其中,每个单尺度上下文信息对应的尺度大小可以通过金字塔上每一层的尺度大小表示。金字塔结构用于网络的前向卷积过程中,对于每一个分辨率的特征图,引入后一个分辨率缩放2倍后的特征图做逐个元素自底向上相加的操作,从而可以将卷积神经网络中高分辨率低语义信息的底层特征图和低分辨率高语义信息的高层特征图进行融合,使融合之后的特征图包含更多语义信息。图像的分辨率是指图像在水平和垂直方向的量化程度,也可以理解为图像能展现的细节程度。在图像内对象的尺寸较小或者对比度较低时,则需要在较高的分辨率下才能观察到图像细节信息。
S2032、根据每个尺度大小,将全局上下文信息中对应当前尺度大小的区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息;
其中,池化聚合可以包括池化处理以及聚合处理两个过程,其中,池化处理的过程是将当前尺度大小的(中间态)特征图像中的某个区域的值取平均值作为该区域的表征的处理过程,而聚合处理的过程是指在进行池化处理得到该区域的平均值表征之后,将该区域中的所有内容信息聚合至该区域中的一个目标位置,以此得到当前尺度下的单尺度上下文信息。示例性地,在一车辆检测场景中,实施例所确定尺度大小为2,首先获取得到前序步骤获取的全局上下文信息,该全局上下文信息可以是包含了目标车辆的全部车身信息以及车牌信息。基于预先确定的尺度信息,在包含了这一全局上下文信息的特征图中,划分得到若干个2*2大小的图像区域,例如在一个包含了车身局部特征的图像区域中,首先进行区域的平均处理,计算得到该区域中像素的平均值,并将这一平均值作为该区域的像素表征值;同时,为了尽可能地保留区域中的内容信息,将该区域中的车身特征信息聚合至该区域中的特定位置,从而得到尺度大小为2的目标车辆单尺度上下文信息。
S2033、根据所有尺度大小对应的单尺度上下文信息,确定多尺度上下文信息。
示例性地,在一车辆检测场景中,当所有尺度大小分别为2、4、8时,则分别在全局上下文信息中对应2*2、4*4、8*8的区域进行池化操作,得到2*2、4*4、8*8区域对应的多个单尺度上下文信息,多个单尺度上下文信息连接得到多尺度上下文信息。
为了提高目标检测识别准确性,在一些可行的实施例中,如图5所示,在根据每个尺度大小,将全局上下文信息中对应当前尺度大小的区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息这一步骤中,可以包括步骤S20321-S20322:
S20321、依次获取各个尺度大小作为当前尺度大小,根据当前尺度大小,从全局上下文信息中确定待池化区域;
其中,待池化区域可以是指根据不同的尺度大小划分得到的各种尺度不同的目标区域。示例性地,在一动植物检测场景中,由于在全局上下文信息的特征图不同种类的动物、植物的形态大小各不相同,因此需要通过不同尺度大小的划分方式确定得到待池化区域;各个尺度大小可以包括3、6、9,先将尺度大小为3作为当前尺度大小,则可以在全局上下文信息中确定3*3的区域作为待池化区域,在这一尺度的待池化区域可以涵盖体型较小的动植物,例如苔藓、蕨类植物以及昆虫等;同理,将尺度大小为6作为当前尺度大小,则可以在全局上下文信息中确定6*6的区域作为待池化区域;将尺度大小为9作为当前尺度大小,则可以在全局上下文信息中确定9*9的区域作为待池化区域,相对应地,在较大待池化区域中,则可以涵盖例如灌木植物,或者猫狗等动物。
S20322、通过最大池化处理或者平均池化处理,对待池化区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息。
其中,单尺度上下文信息中每个位置的信息表征对应待池化区域中所有位置的信息。池化是指降采样过程,能够保持对平移、伸缩等操作的不变性。最大池化是指去某个区域的最大值作为该区域的表征。最大池化能够抑制网络参数误差造成估计均值偏移的现象,更好地提取待检测图像内的纹理信息。平均池化(mean-pooling)是指某个区域的值取平均值作为该区域的表征,能够抑制由领域大小受限造成估计值方差增大的现象,并对背景保留更好的效果。
本实施例中,还可以对相邻重叠区域池化以及空间金字塔池化处理,使得窗口在每次滑动时存在重叠的区域。其中,相邻重叠区域的池化是指采用比窗口宽度更小的步长,空间金字塔池化是基于多尺度信息的描述。示例性地,同时计算1*1、2*2、4*4的矩阵的池化并将结果拼接在一起作为下一网络层的输入。
示例性地,在一车辆检测场景中,在获取包含了待检测车辆图像的全局上下文信息的特征图X后,通过金字塔对特征图进行处理,得到多尺度上下文表示。其中,在金字塔的尺度变换中,用s表示金字塔上每一层的尺度,该值可以取1、2、3、6等不同数字。选取其中一个数值作为尺度s的大小,将特征图X中s*s的位置作为一个区域,将该区域中的值取平均值进行输出得到单尺度特征图Xs。可以理解的是,当尺度为s时,平均池化得到一个单尺度特征图Xs的维度是RC×(H/s)×(W/s),将区域s*s中的内容聚合到一个位置,以获取到单尺度的上下文表示X∈RC×(H/s)×(W/)。在该单尺度特征图Xs中,每个位置代表了待检测车辆图像中的(D×s)*(D×s)区域。基于该处理过程处理得到其他尺度对应的单尺度上下文表示,将多个单尺度上下文表示连接得到多尺度上下文表示,从而可以在进行车辆目标检测时,捕获具有多个尺寸变化的视觉特征信息。
在一些可行的实施例中,如图6所示,在根据每个单尺度上下文信息与初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征这一步骤中,可以包括步骤S2041-S2043:
S2041、确定每个单尺度上下文信息对应的卷积特征图;
其中,将待检测图像输入卷积神经网络后,可以输出得到卷积特征图。当以每个单尺度大小对待检测图像进行转换,并将尺度转换后的待检测图像分别输入到卷积神经网络后,可以输出得到每个单尺度上下文信息对应的卷积特征图。
S2042、计算卷积特征图中各个位置对初始局部区域特征的影响值;
其中,影响值可以用于表征两种信息结合时相互作用的程度大小。示例性地,在一目标对象的检测场景中,将待检测图像输入卷积神经网络后,可以输出得到卷积特征图和初始局部区域特征。可以理解的是,卷积特征图上包含了该局部区域。将该局部区域特征依次与卷积特征图上各个位置进行相互影响程度的计算,可以得到局部区域特征与卷积特征图的影响值。
S2043、根据影响值和卷积特征图中各个位置的表征向量进行上下文聚合计算,得到卷积特征图对应的单尺度上下文区域特征。
其中,表征向量用于表示卷积特征图上对应位置的上下文表示;具体在实施例中,这一表征向量可以是指进行池化聚合后,单尺度特征图Xs中各个位置所聚合的信息内容的向量表示。在得到局部区域特征在卷积特征图上各个位置的影响值后,可以通过影响值和表征向量来重新对初始局部区域特征与卷积特征图的关系进行分配,并根据重新分配后的关系对上下文进行聚合计算,从而得到卷积特征图对应的单尺度上下文区域特征。
在一些可行的实施例中,如图7所示,在计算卷积特征图中各个位置对初始局部区域特征的影响值这一步骤中,可以包括步骤S20421-S20423:
S20421、对卷积特征图中各个位置的表征向量进行第一降维处理,并对初始局部区域特征的表征向量进行第二降维处理;
其中,降维处理是指在不改变高维数据结构的前提下,将高维空间的数据投影到低维空间。将高维数据降维到低维空间后进行处理,能够有效降低计算成本。可以理解的是,在获取到卷积特征中上各个位置的表征向量后,将该表征向量从高维空间投影到低维空间的过程作为第一降维处理;同理,在获取到初始局部区域特征的表征向量后,将该表征向量从高维空间投影到低维空间的过程作为第二降维处理。
S20422、根据卷积特征图的空间高度和空间宽度,构建归一化因子;
其中,可以通过卷积神经网络处理待检测图像后得到卷积特征图。空间高度和空间宽度可以理解为卷积神经网络中输入或输出通道的高度和宽度。归一化是指将在一定范围内的数值转换到目标范围内。归一化的目的是控制输入数据或输出数据的数值范围。归一化因子可以理解为归一化处理过程中所使用的调整数据。
S20423、根据归一化因子对第一降维处理的结果和第二降维处理的结果进行归一化处理,确定卷积特征图中各个位置对初始局部区域特征的影响值。
示例性地,当采用亲和力作为影响值时,本实施例在得到归一化因子和降维处理后的结果时,可以通过如下公式计算得到影响值:
其中,ri表示第i个局部区域的表征向量;表示卷积特征图Xs中第j个位置的表征向量;ωij表示第i个局部区域中位置j的影响值,可以理解的是,位置j是局部区域的序号,根据该序号可以确认位置j在卷积特征图Xs中的位置;fθ(·)表示查询变换函数,fφ(·)表示键变换函数,查询变换函数和键变换函数都可以实现为1×1卷积;θ和φ均表示不同降维层;C(Xs)表示一个归一化因子,其值可以表示为h×w,h为空间高度,w为空间宽度。其中;ωij是根据第i个局部区域与卷积特征图中第j位置的表征向量同时计算得到的表征两个信息之间相互作用关系的影响值。
在一些可行的实施例中,如图8所示,在根据影响值和卷积特征图中各个位置的表征向量进行上下文聚合计算,得到卷积特征图对应的单尺度上下文区域特征这一步骤中,可以包括步骤S20431-S20432:
S20431、当待检测图像中提取的初始局部区域为一个时,将影响值与卷积特征图中各个位置的表征向量相乘,得到各个位置的区域特征向量;将每个位置的区域特征向量进行组合,得到卷积特征图对应的单尺度上下文区域特征;
其中,初始局部区域是指基于卷积特征图进行初步提取得到的兴趣区域;待检测图像输入到卷积神经网络后,可以通过区域候选网络确定待检测图像上的某个兴趣区域,通过计算单个兴趣区域中的各个位置所聚合的信息内容的向量表示,并将影响值作为该表征向量的权重,与单尺度特征图Xs这一局部区域的每个位置的表征向量相乘,累加结果得到第i个ROI的单尺度上下文ROI特征。本实施例中,当提取的局部区域为一个的时候,一个局部区域在一个尺度的卷积特征图上计算得到一个单尺度上下文区域特征。
S20432、当待检测图像中提取的初始局部区域为多个时,将影响值与卷积特征图中各个局部区域的表征向量相乘,得到各个局部区域的区域特征向量;将各个局部区域的区域特征向量进行组合,得到卷积特征图对应的单尺度上下文区域特征。
本实施例中,当提取的兴趣区域有多个时,每个兴趣区域都能在一个尺度的卷积特征图上计算得到对应的单尺度上下文区域特征。相类似地,通过计算单个兴趣区域中的各个位置所聚合的信息内容的向量表示,并将影响值作为该表征向量的权重,与单尺度特征图Xs这一局部区域的每个位置的表征向量相乘,将每个位置的表征向量相乘的结果进行累加,累加得到结果用于表征第i个ROI的单尺度上下文ROI特征,然后,将若干个ROI的单尺度上下文ROI特征组成向量即为单尺度上下文RoI特征。
示例性地,在计算出每个兴趣区域和卷积特征图Xs中的每个位置之间的亲和力之后,根据亲和力和上下文表示重新分配单尺度上下文兴趣区域特征。可以理解的是,可以根据算出的影响值ωij与卷积特征图Xs的每个位置的表征向量相乘,然后累加结果得到第i个兴趣区域的单尺度上下文兴趣区域特征。获取每个兴趣区域的单尺度上下文兴趣区域特征的组成向量,得到不同尺度下的单尺度上下文兴趣区域特征的集合。
结合附图的图9,以游戏测试场景为例,对本申请技术方案中目标检测方法的完整实施过程说明如下:
步骤一、获取待检测图像。可以理解的是,本申请可以在游戏终端运行游戏时,控制游戏终端截取单帧的游戏界面图像作为当前待检测图像。示例性地,目标检测对象能够将不同型号的游戏终端与服务器进行连接。目标检测对象通过服务器在不同型号的游戏终端上安装待测试的游戏应用程序。在游戏应用程序安装完成之后,控制游戏终端上安装的游戏应用程序进行启动。游戏终端响应于游戏检测指令,服务器控制游戏应用程序跳转至待检测界面,然后控制游戏终端对待检测界面进行截图,得到待检测图像。
步骤二、从待检测游戏界面图像中提取初始局部区域特征,并从待检测游戏界面图像中提取全局上下文信息。在获取到待检测图像后,实施例可以将待检测图像输入到卷积神经网络内,输出得到该待检测图像的全局上下文信息和全局图像特征。然后通过区域候选网络确定待检测图像上的局部区域作为局部感兴趣区域,将全局图像特征中属于该局部感兴趣区域的特征作为初始局部区域特征。可以理解的是,区域候选网络是通过方框标注出待检测图像上的其中一个或多个目标游戏对象所在区域作为局部感兴趣区域。实施例中,在卷积神经网络进行全局上下文信息提取时,可以结合预设的下采样率,通过卷积神经网络中的深度残差网络待检测图像进行视觉特征提取,并且通过视觉提取过程确定通道维度、空间高度以及空间宽度,进而可以通过确定通道维度、空间高度以及空间宽度得到视觉特征图,然后根据视觉特征图上每个位置的像素确定周围环境图像中的全局上下文信息。
步骤三、根据全局上下文信息获取待检测图像的多尺度上下文信息。在获取到全局上下文信息后,可以将全局上下文信息输入到空间上下文表示模块,输出得到多个不同尺度下的单尺度上下文信息。可以理解的是,空间上下文表示模块通过采用不同尺度大小获取游戏界面的单帧图像中的上下文信息,得到多个不同尺度下的单尺度上下文信息。示例性地,在空间上下文表示模块的处理过程中,可以先配置金字塔中每个单尺度上下文信息对应的尺度大小,接着根据每个尺度大小将全局上下文信息对应尺度大小的区域进行池化聚合。可以理解的是,实施例中的池化处理包括最大池化处理或者平均池化处理。在完成每个尺度大小的池化聚合后,可以得到多个单尺度上下文信息,将多个单尺度上下文信息进行连接,得到多尺度上下文信息。
步骤四、根据每个单尺度上下文信息与初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征,将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征。实施例中,可以将多个不同尺度下的单尺度上下文信息和初始局部区域特征输入到空间上下文依赖模块,以通过空间上下文依赖模块输出得到多尺度上下文区域特征。其中,空间上下文依赖模块通过计算卷积特征图上的各个位置分别与初始局部区域特征的影响值,并结合卷积特征图中各个位置的表征向量确定多个不同尺度下的单尺度上下文区域特征。然后将多个不同尺度下的单尺度上下文区域特征通过concat()函数连接初始局部区域特征,以通过多个不同尺度的特征提供局部区域外的特征,进而可以得到更加准确的目标区域特征。示例性地,影响值的计算过程如下:
其中,ri表示第i个局部区域的表征向量;表示卷积特征图Xs中第j个位置的表征向量;ωij表示第i个局部区域中位置j的影响值;fθ(·)表示查询变换函数,fφ(·)表示键变换函数;θ和φ均表示不同降维层;C(Xs)表示一个归一化因子,其值可以表示为h×w,h为空间高度,w为空间宽度。
步骤五、对目标区域特征进行识别,得到待检测图像中各个目标区域对应的目标类别信息。在得到目标区域特征后,实施例通过全连接层对目标区域内的目标对象进行类别识别。可以理解的是,实施例在得到目标对象的类别后,服务器可以控制显示端显示该类别信息。
示例性地,在一游戏测试场景中,当游戏终端将图10所示的目标游戏界面的单帧图像发送到服务器后,服务器即能通过运行图2所示的目标检测方法检测得到目标类型。从图10可知,目标游戏界面的单帧图像1010上有若干个目标对象,其中,对于存在部分重叠的目标对象时,本实施例也可以根据全局上下文信息确定的多尺度上下文区域特征将重叠的目标对象1020准确的识别出来,并在目标游戏界面的单帧图像1010上将该目标对象通过方框1030标注出来。
如图11所示,一种检测模型训练方法,该方法包括步骤R1101-R1106:
R1101、获取图像训练集;
其中,图像训练集可以包括正例样本和反样本。正例样本是模型需要正确预测或者分类出的类别所对应的样本;反例样本可以是由任何不属于正例样本任何样本数据所构建的样本集合。可以理解的是,可以将待检测场景所对应的历史图像组成图像训练样本集。在该训练样本集上,每个训练样本上的目标都对应有正确的类别信息。
R1102、从图像训练集的各个样本图像中提取初始局部区域特征,并从各个样本图像中提取全局上下文信息;
其中,局部区域可以理解为样本图像中局部感兴趣区域。局部区域特征是指该局部感兴趣区域内的图像特征。上下文信息可以包括语义上下文信息、空间上下文信息和尺度上下文信息和尺度上下文信息。语义上下文信息和空间上下文信息都可以理解为不同对象之间的相互作用信息、对象与场景之间的相互作用信息。全局上下文信息包括样本图像中不同对象之间的相互作用信息和对象与背景之间的相互作用信息。
R1103、根据全局上下文信息获取样本图像的多尺度上下文信息;其中,多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
其中,图像的尺度是指图像内容的粗细程度。尺度是用来模拟目标对象距离物体远近的程度。多尺度是指不同空间大小。本实施例通过以不同尺度大小分别提取待检测图像中的全局上下文信息,得到不同尺度下的上下文信息。示例性地,以道路上的行走对象检测为例,不同尺度分别包括1.0、3.0和5.0,则分别提取尺度为1.0时道路样本图像对应的单尺度上下文信息,提取尺度为3.0时道路样本图像对应的单尺度上下文信息,提取尺度为5.0时道路样本图像对应的单尺度上下文信息,将尺度分别为1.0、3.0和5.0对应的单尺度上下文信息组合成多尺度上下文信息,从而可以从不同尺度上提取得到上下文信息。
R1104、根据每个单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征;
其中,连接可以采用concat()函数连接两个或多个信息。以一游测试场景为例,本实施例在得到游戏界面样本图像的多个单尺度上下文信息和初始局部区域特征后,可以通过该两个信息之间的相互关系,生成游戏界面样本图像对应的多个不同尺度上下文信息。然后通过concat()函数将各个单尺度上下文区域特征连接成多尺度上下文区域特征,从而可以进行模型训练时,通过多尺度上下文区域特征提供初始局部区域特征之外的特征。
R1105、对目标区域特征进行识别,得到样本图像中各个目标区域对应的预测类别信息;
本实施例中,可以通过将游戏界面样本图像对应的目标区域特征输入到全连接层,以通过全连接层得到对目标区域特征进行分类预测,从而得到游戏界面样本图像中所有目标区域对应的预测类别信息。
R1106、根据预测类别信息与样本图像中各个目标区域的正确类别信息,计算预测类别信息的损失值,并根据所述损失值对检测模型的参数进行修正。
本实施例中,可以通过Softmax和交叉熵的方式计算得到类别信息的损失值,进而通过对损失函数求导,采用梯度下降等优化算子,计算得到模型超参数,以对推荐模型的参数进行修正,最终训练得到目标检测模型。示例性的,本实施例对目标检测模型进行修正的参数可以包括:卷积神经网络的超参数、空间上下文表示模块参数、空间上下文依赖模块参数、注意力机制的超参数等等。
结合说明书附图11,以游戏场景为例,对本发明实施例中目标检测模型训练方法的完整过程进行描述如下:
在一游戏的服务器后台中,首先,本实施例获取当前游戏对应的游戏界面的单帧图像样本的历史数据,并将存在目标对象的游戏界面的单帧图像样本作为正例,将不存在目标对象的游戏界面的单帧图像样本作为负例。然后通过每个游戏界面的单帧图像样本的全局上下文信息,为模型进行目标检测训练过程中提供局部区域特征之外的信息,进而提高模型训练准确度;并且,根据全局上下文信息获取游戏界面的单帧图像样本中多个不同尺度下的单尺度上下文信息,从而可以在进行小目标检测训练时,提高模型训练的精度。并且,通过对损失函数求导,采用梯度下降等优化算子,计算得到模型超参数,以更好地优化模型。
本发明实施例还公开了另一种目标检测方法,该方法包括步骤T001-T002:
T001、响应于检测指令,获取待检测图像,并向目标服务器发送待检测图像,以使目标服务器对待检测图像进行目标检测,识别得到待检测图像中各个目标区域对应的目标类别信息;
本实施例中,图像获取终端在接收到来自服务器的目标指令之后,图像获取终端可以通过截图工具或拍照工具获取待检测图像,并可以通过无线传输的方式将待检测图像发送到服务器,服务器在完成对该待检测图像的目标类别检测后,将检测得到的目标类别信息返回到图像获取终端。
T002、接收目标服务器识别到的目标类别信息,显示目标检测结果;
本实施例中,图像获取终端在接收来自服务器的目标类别信息后,可以在图像获取终端的对象交互界面上显示目标类别信息。
以道路上车辆类型检测场景为例,目标类别信息的确定过程如下:
本实施例通过提取图像获取终端发送的道路街景图像的全局上下文信息和初始局部区域特征,然后通过全局上下文信息获取道路街景图像的多个不同尺度下的单尺度上下文信息,接着结合初始局部区域特征确定多个不同尺度下的单尺度上下文区域特征,进而根据多个不同尺度下的单尺度上下文区域特征进行道路街景图像是上的目标类型识别。
结合图12,以游戏测试场景为例,对本发明实施例中目标检测方法的完整过程进行描述如下:
目标对象能够将不同型号的手机游戏终端放置在测试机房中,通过机房中的连接线将不同型号的手机游戏终端与具备数据处理能力电脑(PC,Personal Computer)端进行连接。目标对象通过PC端在不同型号的手机游戏终端上安装待测试的游戏应用程序。安装完成之后,PC端控制手机游戏终端上安装的游戏应用程序进行启动。手机游戏终端响应于PC端发送的检测指令,同时,PC端控制手机游戏终端上的游戏应用程序跳转至待检测界面,接着PC端控制手机游戏终端对待检测界面的单帧进行截图,得到每帧对应的游戏界面截图作为待检测图像。PC端得到游戏界面截图后,通过识别得到的游戏界面截图对应的全局上下文信息,并根据全局上下文信息得到多个不同尺度下的单尺度上下文区域特征,从而可以在进行游戏界面截图上进行目标对象识别时,提供多个不同尺度的特征,从而提高目标对象识别结果的准确度。
需要说明的是,本申请技术方案所提供的任意一种目标检测的方法,其不仅仅可以应用于游戏场景之中,还可以应用于其他技术领域,例如车辆检测领域、人脸检测领域以及动植物检测等其他技术领域。本说明书中的具体实施过程仅仅是对方法的可行方式进行举例说明,其并不对方法的应用场景进行限定。
本发明实施例还公开了一种目标检测装置,其包括:
第一模块,用于获取待检测图像;
第二模块,用于从待检测图像中提取初始局部区域特征,并从待检测图像中提取全局上下文信息;
第三模块,用于根据全局上下文信息获取待检测图像的多尺度上下文信息;其中,多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
第四模块,用于根据每个单尺度上下文信息与初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
第五模块,用于将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征;
第六模块,用于对目标区域特征进行识别,得到待检测图像中各个目标区域对应的目标类别信息。
在一游戏场景中,本实施例的目标检测装置通过提取待检测游戏界面截图的全局上下文信息和局部区域特征,以在进行目标检测的时,可以通过全局上下文信息提供局部区域之外的其他全局信息进行目标检测,从而提高目标检测结果的准确性;并且,本实施例的目标检测装置根据全局上下文信息获取多个不同尺度下的单尺度上下文区域特征,进而可以通过多个不同尺度下的单尺度上下文区域特征结合初始局部区域特征得到目标区域特征,以在对目标区域进行目标类别识别时,可以利用不同空间尺度的特征来进行目标检测,提高了小目标检测准确性。
本发明实施例还公开了另一种目标检测装置,包括:
第七模块,用于响应于检测指令,获取待检测图像,并向目标服务器发送待检测图像,以使目标服务器对待检测图像进行目标检测,识别得到待检测图像中各个目标区域对应的目标类别信息;
第八模块,用于接收目标服务器识别到的目标类别信息,显示目标检测结果;其中,目标类别信息根据图2所示的目标检测方法确定。
在一目标对象检测场景中,将拍摄终端作为第七模块,将服务器作为第八模块。本实施例可以通过拍摄终端将拍摄得到的待检测目标对象所在图像发送到服务器,以通过服务器提取该图像的全局上下文信息和局部区域特征,根据全局上下文信息获取多个不同尺度下的单尺度上下文区域特征,通过多个不同尺度下的单尺度上下文区域特征结合初始局部区域特征得到目标区域特征,以在对目标区域进行目标类别识别时,可以利用不同空间尺度的特征来进行目标类别检测后,得到准确的目标类别检测信息,并将目标类别检测信息返回拍摄终端进行显示。
本发明实施例还公开了一种检测模型训练装置,包括:
第九模块,用于获取图像训练集;
第十模块,用于从图像训练集的各个样本图像中提取初始局部区域特征,并从各个样本图像中提取全局上下文信息;
第十一模块,用于根据全局上下文信息获取样本图像的多尺度上下文信息;其中,多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
第十二模块,用于根据每个单尺度上下文信息与初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
第十三模块,用于将各个单尺度上下文区域特征连接得到多尺度上下文区域特征,将多尺度上下文区域特征与初始局部区域特征连接得到目标区域特征;
第十四模块,用于对目标区域特征进行识别,得到样本图像中各个目标区域对应的预测类别信息;
第十五模块,用于根据预测类别信息与样本图像中各个目标区域的正确类别信息,计算预测类别信息的损失值,并根据损失值对检测模型的参数进行修正。
在道路车辆检测场景中,本实施例获取道路的街景图像样本的历史数据,并将存在目标车辆的街景图像样本作为正例,将不存在目标车辆的街景图像样本作为负例。然后通过每个街景图像样本的全局上下文信息,为模型进行目标检测训练过程中提供局部区域特征之外的信息,进而提高模型训练准确度;并且,根据全局上下文信息获取街景图像样本中多个不同尺度下的单尺度上下文信息,从而可以在进行小目标检测训练时,提高模型训练的精度。并且,通过对损失函数求导,采用梯度下降等优化算子,计算得到模型超参数,以更好地优化模型。
需要说明的是,本申请技术方案所提供的任意一种目标检测的装置,其不仅仅可以应用于游戏场景之中,还可以应用于其他技术领域,例如车辆检测领域、人脸检测领域以及动植物检测等其他技术领域。本说明书中的具体实施过程仅仅是对装置的可行方式进行举例说明,其并不对装置的应用场景进行限定。
本发明实施例还提供了一种电子设备,该电子设备包括处理器以及存储器;存储器存储有程序;处理器执行程序以执行前述的目标检测方法;该电子设备具有搭载并运行本发明实施例提供的业务数据处理的软件系统的功能,例如,个人计算机(PersonalComputer,PC)、手机、智能手机、个人数字助手(Personal Digital Assistant,PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、车载终端等。
示例性地,游戏玩家通过任意一种电子设备登入到游戏客户端时,实施例通过该电子设备对游戏界面进行截图,并通过处理器对该游戏界面截图进行目标检测,可以理解的时,处理器在得到游戏界面截图后,提取游戏界面截图的全局上下文信息和局部区域特征,以通过全局上下文信息提供局部区域之外的其他全局信息进行目标检测,从而提高目标检测结果的准确性;并且,根据全局上下文信息获取多个不同尺度下的单尺度上下文区域特征,以在对目标区域进行目标类别识别时,可以利用不同空间尺度的特征来进行目标检测,提高了小目标检测准确性。
本发明实施例还提供了一种计算机可读存储介质,存储介质存储有程序,所述程序被处理器执行实现前述的目标检测方法。与此同时,本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的虚目标检测方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
从上述说明书中所提供的实施例,可以清楚地得知,本申请技术方案存在着至少以下的有益效果:
本发明的技术方案可以通过待检测图像的全局上下文信息,为目标检测过程提供局部区域特征之外的局部信息,从而提高目标检测准确性,并且本发明还通过获取多个不同尺度下的单尺度上下文区域特征,从而通过不同空间尺度的特征来进行目标识别,当检测目标为小目标或检测图像上的目标和背景色差不明显时,本发明多个不同尺度下的单尺度上下文区域特征能够更加准确检测到小目标或色彩不明显的目标,提高了目标检测准确性。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (15)
1.一种目标检测方法,其特征在于,包括:
获取待检测图像;
从所述待检测图像中提取初始局部区域特征,并从所述待检测图像中提取全局上下文信息;
根据所述全局上下文信息获取所述待检测图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
对所述目标区域特征进行识别,得到所述待检测图像中各个目标区域对应的目标类别信息。
2.根据权利要求1所述的一种目标检测方法,其特征在于,所述从所述待检测图像中提取全局上下文信息,包括:
根据预设的下采样率,通过深度残差网络对所述待检测图像进行视觉特征提取;
根据所述视觉特征提取确定的通道维度、空间高度以及空间宽度,得到深度残差网络输出的卷积特征图;
根据所述卷积特征图,确定所述全局上下文信息。
3.根据权利要求1或2所述的一种目标检测方法,其特征在于,所述根据所述全局上下文信息获取所述待检测图像的多尺度上下文信息,包括:
配置每个单尺度上下文信息对应的尺度大小;
根据每个尺度大小,将所述全局上下文信息中对应当前尺度大小的区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息;
根据所有尺度大小对应的单尺度上下文信息,确定所述多尺度上下文信息。
4.根据权利要求3所述的一种目标检测方法,其特征在于,所述根据每个尺度大小,将所述全局上下文信息中对应当前尺度大小的区域进行池化聚合,得到当前尺度大小对应的单尺度上下文信息,包括:
依次获取各个尺度大小作为当前尺度大小;
根据所述当前尺度大小,从所述全局上下文信息中确定待池化区域;
通过最大池化处理或者平均池化处理,对所述待池化区域进行池化聚合,得到所述当前尺度大小对应的单尺度上下文信息;
其中,所述单尺度上下文信息中每个位置的信息表征对应待池化区域中所有位置的信息。
5.根据权利要求1所述的一种目标检测方法,其特征在于,所述根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征,包括:
确定每个所述单尺度上下文信息对应的卷积特征图;
计算所述卷积特征图中各个位置对所述初始局部区域特征的影响值;
根据所述影响值和所述卷积特征图中各个位置的表征向量进行上下文聚合计算,得到所述卷积特征图对应的单尺度上下文区域特征。
6.根据权利要求5所述的一种目标检测方法,其特征在于,所述计算所述卷积特征图中各个位置对所述初始局部区域特征的影响值,包括:
对所述卷积特征图中各个位置的表征向量进行第一降维处理,并对所述初始局部区域特征的表征向量进行第二降维处理;
根据所述卷积特征图的空间高度和空间宽度,构建归一化因子;
根据所述归一化因子对所述第一降维处理的结果和所述第二降维处理的结果进行归一化处理,确定所述卷积特征图中各个位置对所述初始局部区域特征的影响值。
7.根据权利要求5所述的一种目标检测方法,其特征在于,所述根据所述影响值和所述卷积特征图中各个位置的表征向量进行上下文聚合计算,得到所述卷积特征图对应的单尺度上下文区域特征,包括:
当所述待检测图像中提取的初始局部区域为一个时,将所述影响值与所述卷积特征图中各个位置的表征向量相乘,得到各个位置的区域特征向量;将每个位置的区域特征向量进行组合,得到所述卷积特征图对应的单尺度上下文区域特征;
当所述待检测图像中提取的初始局部区域为多个时,将所述影响值与所述卷积特征图中各个局部区域的表征向量相乘,得到各个局部区域的区域特征向量;将各个局部区域的区域特征向量进行组合,得到所述卷积特征图对应的单尺度上下文区域特征。
8.一种目标检测方法,其特征在于,包括:
响应于检测指令,获取待检测图像,并向目标服务器发送所述待检测图像,以使所述目标服务器对所述待检测图像进行目标检测,识别得到所述待检测图像中各个目标区域对应的目标类别信息;
接收所述目标服务器识别到的目标类别信息,显示目标检测结果;
其中,所述目标类别信息根据如权利要求1-7中任一项所述的目标检测方法确定。
9.一种检测模型训练方法,其特征在于,包括:
获取图像训练集;
从所述图像训练集的各个样本图像中提取初始局部区域特征,并从各个所述样本图像中提取全局上下文信息;
根据所述全局上下文信息获取所述样本图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
对所述目标区域特征进行识别,得到所述样本图像中各个目标区域对应的预测类别信息;
根据所述预测类别信息与所述样本图像中各个目标区域的正确类别信息,计算所述预测类别信息的损失值,并根据所述损失值对检测模型的参数进行修正。
10.一种目标检测装置,其特征在于,包括:
第一模块,用于获取待检测图像;
第二模块,用于从所述待检测图像中提取初始局部区域特征,并从所述待检测图像中提取全局上下文信息;
第三模块,用于根据所述全局上下文信息获取所述待检测图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
第四模块,用于根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
第五模块,用于将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
第六模块,用于对所述目标区域特征进行识别,得到所述待检测图像中各个目标区域对应的目标类别信息。
11.一种目标检测装置,其特征在于,包括:
第七模块,用于响应于检测指令,获取待检测图像,并向目标服务器发送所述待检测图像,以使所述目标服务器对所述待检测图像进行目标检测,识别得到所述待检测图像中各个目标区域对应的目标类别信息;
第八模块,用于接收所述目标服务器识别到的目标类别信息,显示目标检测结果;
其中,所述目标类别信息根据如权利要求1-7所述的目标检测方法确定。
12.一种检测模型训练装置,其特征在于,包括:
第九模块,用于获取图像训练集;
第十模块,用于从所述图像训练集的各个样本图像中提取初始局部区域特征,并从各个所述样本图像中提取全局上下文信息;
第十一模块,用于根据所述全局上下文信息获取所述样本图像的多尺度上下文信息;其中,所述多尺度上下文信息包括多个不同尺度下的单尺度上下文信息;
第十二模块,用于根据每个所述单尺度上下文信息与所述初始局部区域特征,确定多个不同尺度下的单尺度上下文区域特征;
第十三模块,用于将各个所述单尺度上下文区域特征连接得到多尺度上下文区域特征,将所述多尺度上下文区域特征与所述初始局部区域特征连接得到目标区域特征;
第十四模块,用于对所述目标区域特征进行识别,得到所述样本图像中各个目标区域对应的预测类别信息;
第十五模块,用于根据所述预测类别信息与所述样本图像中各个目标区域的正确类别信息,计算所述预测类别信息的损失值,并根据所述损失值对检测模型的参数进行修正。
13.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至8中任一项所述的目标检测方法或者如权利要求9所述的检测模型训练方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至8中任一项所述的目标检测方法或者如权利要求9所述的检测模型训练方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的目标检测方法或者如权利要求9所述的检测模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210873136.8A CN117011566A (zh) | 2022-07-22 | 2022-07-22 | 一种目标检测方法、检测模型训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210873136.8A CN117011566A (zh) | 2022-07-22 | 2022-07-22 | 一种目标检测方法、检测模型训练方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011566A true CN117011566A (zh) | 2023-11-07 |
Family
ID=88560639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210873136.8A Pending CN117011566A (zh) | 2022-07-22 | 2022-07-22 | 一种目标检测方法、检测模型训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011566A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690164A (zh) * | 2024-01-30 | 2024-03-12 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及系统 |
-
2022
- 2022-07-22 CN CN202210873136.8A patent/CN117011566A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690164A (zh) * | 2024-01-30 | 2024-03-12 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及系统 |
CN117690164B (zh) * | 2024-01-30 | 2024-04-30 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN110555481B (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
Tian et al. | A dual neural network for object detection in UAV images | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112232355B (zh) | 图像分割网络处理、图像分割方法、装置和计算机设备 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
Xing et al. | Traffic sign recognition using guided image filtering | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN112801236B (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
CN115375781A (zh) | 一种数据处理方法及其装置 | |
CN111723660A (zh) | 一种用于长形地面目标检测网络的检测方法 | |
Yang et al. | Ai-generated images as data source: The dawn of synthetic era | |
Xing et al. | The Improved Framework for Traffic Sign Recognition Using Guided Image Filtering | |
CN117011616A (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN113449548A (zh) | 更新物体识别模型的方法和装置 | |
CN117011566A (zh) | 一种目标检测方法、检测模型训练方法、装置及电子设备 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN117854155B (zh) | 一种人体骨骼动作识别方法及系统 | |
CN114596515A (zh) | 目标对象检测方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |