CN112396648A - 一种可定位目标物质心的目标识别方法和系统 - Google Patents
一种可定位目标物质心的目标识别方法和系统 Download PDFInfo
- Publication number
- CN112396648A CN112396648A CN201910739757.5A CN201910739757A CN112396648A CN 112396648 A CN112396648 A CN 112396648A CN 201910739757 A CN201910739757 A CN 201910739757A CN 112396648 A CN112396648 A CN 112396648A
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- target object
- image
- centroid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 239000000284 extract Substances 0.000 claims abstract description 6
- 239000013076 target substance Substances 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000005764 inhibitory process Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000005286 illumination Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 27
- 238000013135 deep learning Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种可定位目标物质心的目标识别方法,所述目标识别方法包括:建立含目标物质心信息的数据集;构建目标识别系统,并通过所述数据集训练所述目标识别系统;使用训练后的所述目标识别系统识别目标物质心;本发明还包括一种可定位目标物质心的目标识别系统,所述目标识别系统包括:前端提取网络、目标检测网络和质心检测网络。通过本发明的目标识别方法和目标识别系统,同步检测目标物的位置边框、种类及质心,从而提高目标质心识别的精度,检测结果方便快速。
Description
技术领域
本发明属于图像信息处理技术领域,特别涉及一种可定位目标物质心的目标识别方法和系统。
背景技术
目标识别是指在图像中定位出目标物位置并确定目标物类型的过程。随着计算机视觉、人工智能技术的发展,目标识别在工业领域得到广泛应用。现有的目标识别方法主要有基于传统的机器学习方法和深度学习方法两类。传统的机器学习方法主要通过利用人为设计的特征算子(Sift、Harr等)从图像中提取出特征之后利用Adaboost、PLSA等模型实现目标物的分类。但是该方法具有局限性,人为设计的特征算子往往不具备好的尺度不变性、旋转不变性,同时对于环境中的噪声、光线等不具备好的抵抗性。
基于深度学习的目标检测网络可从输入样本中自学学习海量的特征,具有多尺度、平移不变性及旋转不变性等优点。但是现有的基于深度学习的目标检测网络只能检测出目标物的位置边框以及其种类,作为图像重要特征之一的目标物质心难以明确识别。
质心指的是其在二维图像中的形状中心,也是一个重要的图像特征信息。例如,医学图像中需要获取染色体、细胞等目标物的质心或基于质心的视频跟踪算法也依赖于高精度的质心位置预测。传统的目标质心算法主要是依据图像连通域的几何矩计算,传统方法对于形状不规则的图形计算出的质心位置会有较大的偏差。也有一些方法通过对二值化图像进行灰度统计计算质心位置,但此类方法存在计算量大、可行性不高等缺点。
因此需要一种与深度学习方法的优点相结合,能够快速便捷识别目标物质心的方法。
发明内容
针对上述问题,本发明提供了一种可定位目标物质心的目标识别方法。
一种可定位目标物质心的目标识别方法,所述目标识别方法包括:
建立含目标物质心信息的数据集;
构建目标识别系统,并通过所述数据集训练所述目标识别系统;
使用训练后的所述目标识别系统识别目标物质心;
所述目标识别系统识别目标物质心包括:
输入待检测图像,所述目标识别系统提取所述待检测图像的图像特征;
依据所述图像特征,计算候选边框的坐标,并采用非极大值抑制法从所述候选边框中筛选出目标物边框坐标;
依据所述目标物边框和所述图像特征,对所述目标物边框内的图像栅格分割,确认所述目标物的质心位置。
进一步地,所述数据集为图像集,所述图像集的图像信息包括:目标物的位置边框、种类和质心位置。
进一步地,所述数据集的建立包括:
通过在不同的光照环境下拍摄目标物图像,手动标注出拍摄的目标物图像内目标物的位置边框、种类及质心位置;
将所述数据集化分为训练集和测试集,所述训练集用于训练所述目标识别系统,所述测试集用于评估所述目标识别系统的有效性。
进一步地,所述图像特征包括初次图像特征和二次图像特征;
初次图像特征,用于计算所述候选边框的坐标;
二次图像特征,用于筛选目标物边框和确认目标物质心。
进一步地确认所述目标物的质心位置包括:
接收所述目标物边框,从所述图像特征的二次图像特征中,获取所述目标物边框的边框特征图;
所述边框特征图通过降低所述边框特征图的维度至预设维度,进行栅格分割;
继续降低栅格分割后所述边框特征图的维度,至所述边框特征图的维度为最终维度;
将最终维度内置信度最高的栅格位置标记为质心位置。
进一步地,所述最终维度包括:质心的置信度、质心的横坐标和质心纵坐标。
进一步地,所述质心的置信度通过sigmoid函数的回归计算获得。
进一步地,所述通过所述数据集训练所述目标识别系统包括:
预处理所述数据集中的训练集图像;
将预处理后的所述训练集图像输入所述目标识别系统中进行前向传播,并在前向传播过程中,通过损失函数获得传输路径中所述目标识别系的输出损失值后,将所述训练集图像通过Adam优化器进行反向传播;
在所述反向传播中将所述输出损失值按训练集图像的传输路径返回,对所述目标识别系统的参数进行更新,收敛所述目标识别系统的输出损失值;
当所述输出损失值收敛降低至预设收敛值后,将所述数据集中的测试集图像输入所述目标识别系统中进行质心位置判断,得出所述测试集图像质心判断的平均准确率;
若所述平均准确率大于或等于预设准确率,则所述目标识别系统训练成功,否则继续训练所述目标识别系统,直至所述平均准确率大于或等于预设准确率。
进一步地,所述损失函数由(1)式表示:
L=Lrpn+Lcls+Lconf+Lloc (1),
(4)式中,L为目标识别系统的总损失函数,Lrpn为候选边框位置和候选边框置信度损失,Lcls为目标物种类损失,Lconf为质心预测概率损失,Lloc为质心位置损失。
进一步地,所述损失函数中候选边框位置和候选边框置信度损失Lrpn为:
(5)式中,pi为预测的候选边框中含有目标物的概率,为训练图像中边框位置是否含有目标物的真实概率,ti为预测候选边框的位置坐标,为训练图像中目标物的真实边框坐标,Llog表示采用对数损失函数,LsmoothL1表示使用Smooth-L1损失函数,λ为加权常数,Ncls为所有候选边框的总数,Nreg为所有候选边框坐标的总数。
进一步地,所述损失函数中目标物种类和目标物边框损失Lcls为:
(6)式中,pli为预测的目标物种类概率分布,为真实的目标物种类概率分布,qi为预测出的目标物边框位置,为训练集图像中目标物的真实边框坐标,Llog表示采用对数损失函数,LsmoothL1表示使用Smooth-L1损失函数,λ为加权常数。
进一步地,所述损失函数中质心预测概率损失Lconf为:
进一步地,所述损失函数中质心位置损失Lloc为:
Lloc=LsmoothL1(s,s*) (5),
进一步地,所述目标物边框坐标的筛选包括:依据所述图像特征的初次图像特征计算所述待检测图像内各物体候选边框坐标;
从所述图像特征的二次图像特征中获取所述目标物候选边框的特征,依据所述目标物候选边框的特征筛选所述目标物边框;
其中,所述采用非极大值抑制法从所述候选边框中筛选出目标物边框包括:
依据所述目标物候选边框的特征计算候选边框内各物体为目标物种类的类别概率,将对应最大类别概率的种类确认为目标物,保留目标物的候选边框坐标;
依据所述目标物候选边框的特征,计算所述目标物候选边框的置信度,并按照置信度对所述目标物候选边框降序排列;
从任一目标物的第一个候选边框开始计算与相邻候选边框的交叠率,若交叠率大于设定阈值,则删除相邻的候选边框;
从未处理目标物的候选边框中继续选择一个置信度最高的候选框,重复以上操作直至遍历完所有候选边框;
选择置信度最高的候选边框,输出为所述目标物边框。
一种可定位目标物质心的目标识别系统,所述目标识别系统包括:前端提取网络、目标检测网络和质心检测网络;
前端提取网络,用于接收含目标物的待检测图像,并提取所述待检测图像的图像特征;
目标检测网络,用于依据所述图像特征计算候选边框的坐标,并采用非极大值抑制法从所述候选边框中筛选出目标物边框;
质心检测网络,依据所述目标物边框和所述图像特征,对所述目标物边框内的图像进行栅格分割,确认所述目标物的质心位置。
进一步地,所述前端提取网络包括四个卷积模块,所述卷积模块结构为:卷积层—批归一化层—激活层—最大池化层。
进一步地,所述前端提取网络内的激活层采用的激活函数为线性整流函数。
进一步地,所述目标检测网络包括RPN结构和RCNN结构;
RPN结构,用于依据所述图像特征的初次图像特征计算图像内各物体候选边框坐标;
RCNN结构,用于从各物体候选边框坐标中保留目标物候选边框坐标,并采用非极大值抑制法从所述目标物候选边框坐标中筛选目标物边框坐标;
RCNN结构通过ROI插值法,从所述图像特征的二次图像特征中获取目标物候选边框的图像特征,所述目标物候选边框的图像特征用于确认目标物种类及目标物候选边框。
进一步地,所述质心检测网络包括:特征处理结构、残差卷积结构和质心检测结构;
特征处理结构,用于接收所述目标物边框和目标物种类,从所述图像特征的二次图像特征中,获取目标物边框的边框特征图;
残差卷积结构,通过降低所述边框特征图的维度至预设维度,栅格分割所述边框特征图;
质心检测结构,降低栅格分割后所述边框特征图的维度至最终维度,确定最终维度内质心置信度最高的栅格为所述待检测图像的质心位置。
本发明的可定位目标物质心的目标识别方法能够同步检测目标物的位置边框、种类及质心,从而提高目标质心识别的精度,检测结果方便快速。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的目标识别方法流程图;
图2示出了根据本发明实施例的目标物边框筛选过程示意图;
图3A示出了根据本发明实施例的对a1框的栅格质心概率预测结果图;
图3B示出了根据本发明实施例的对b1框的栅格质心概率预测结果图;
图4示出了根据本发明实施例的目标识别系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种可定位目标物质心的目标识别方法,如图1所示,包括如下步骤:
步骤1:建立含目标物种类、位置和质心信息的数据集。
1.1、数据集的采集:
通过在不同的光照环境下拍摄目标物图像,在手动标注出拍摄图像内目标物的位置边框、种类及质心位置。通过不同光照下的图像拍摄,有助于识别检测网络具有更好的鲁棒性和泛化能力。
1.2、将采集后的数据集划分为训练集和测试集:
训练集用于训练目标识别系统,将训练集内的图像输入目标识别系统后,依据图像内标记的目标物边框和质心进行自动学习,获取各训练图像中目标物边框及质心的特征,从而建立目标识别系统获取任意图像内目标物的边框、质心及种类的识别过程。
测试集用于评估目标识别系统的有效性,对可以识别目标物边框、质心及种类的目标识别系统进行多次测试,逐步调整目标识别网络的识别精确度。
步骤2:构建目标识别系统,并通过数据集训练目标识别系统。
2.1、通过前端提取网络、目标检测网络、质心检测网络和检测模块构建可定位目标物质心的目标识别系统。
目标识别系统能够提取待检测图像的图像特征,确认图像内目标物种类。依据图像特征提取图像内的目标物边框,再通过目标物边框和图像特征确认目标物的质心,实现目标识别系统能够输出目标物种类和目标物质心。
2.2、利用数据集中的图像对目标识别系统进行训练。
2.2.1、图像预处理:采用批训练的方式处理训练集中的图像,每批次图像不少于10张,输入前对同一批次的多张图像进行归一化处理。通过归一化处理多张图像能够简化图像的信息量,提高目标识别系统处理速度。示例性的,每次选择16张图像进行训练,再对16张图像进行归一化处理。
对归一化处理后的图像进行数据扩充。具体扩充方式为:通过旋转、裁剪、缩放等图像处理技术完成数据集的扩充。数据扩充技术有助于目标识别系统在训练过程中识别非规整图像,使得训练出的网络鲁棒性和泛化能力更高。
示例性的,对16张图像归一化处理后,可以统一进行旋转、裁剪、缩放处理,也可将一部分图像进行旋转处理、一部分图像进行裁剪处理、剩余图像进行缩放处理。每处理一次对处理得到的图像进行保存再还原为原图像,也可先将图像复制后再进行扩充处理并保存处理后的图像。
2.2.2、将预处理后的训练样本集输入目标识别系统中,在目标识别系统中先进行前向传播,之后进行反向传播。
训练样本集在目标识别系统的向前传播过程中,目标检测系统中的损失函数会计算传输路径中系统各模块的输出损失值。之后在反向传播的过程中将输出的损失值按传输路径原路返回,依次反向传播至系统的图像输入层。系统内各模块利用内置的优化算法不断降低输出的损失值,实现反向传播过程时更新各网络模块的参数。直至整个目标识别系统的损失值降低至一个较小值并维持稳定,即系统的网络训练收敛至预设损失值时,参数不再更新,系统训练完成。
在前向传播过程中,目标识别系统的输出损失值通过损失函数获得。损失函数由四个部分组成:目标物种类误差、边框位置损失、质心预测概率损失和质心位置损失。具体定义如下:
L=Lrpn+Lcls+Lconf+Lloc (1)
式(1)中,L为目标识别系统的总损失函数。
Lrpn为目标检测网络中RPN结构输出的候选边框位置和候选边框置信度概率的损失,具体定义如下:
其中,pi为预测的候选边框中含有目标物的概率,为训练图像中边框位置是否含有目标物的真实概率,ti为预测候选边框的位置坐标,为训练图像中目标物的真实边框坐标,运用过程中与都是真实已知的。Llog表示采用对数损失函数,LsmoothL1表示使用Smooth-L1损失函数。λ为加权的常数,一般取10。Ncls为所有候选边框的总数,Nreg为所有回归出的预测边框坐标的总数。
Lcls为目标检测网络中RCNN结构输出的目标物种类和目标物边框损失,
Lconf为质心检测网络输出的质心预测概率损失,具体定义如下:
Lloc为质心检测网络输出的质心位置损失。
Lloc=LsmoothL1(s,s*) (5)
通过多次训练,当目标识别系统的损失值稳定收敛,降至预设损失值后,再将测试样本集输入目标识别系统,并计算平均准确率。当平均准确率达到预设准确率后,即可认为目标识别网络训练成功,否则继续训练目标识别网络。
测试样本集输入时,同样经过归一化处理,提升目标识别系统处理速度。
在反向传播中采用Adam优化器,Adam优化器能设计自适应性学习率,并能解决稀疏梯度。
示例性的,平均准确率的设定值为80%。输入第一批训练图像后,得到目标识别系统的输出损失值达到100,随即进行反向传播,将传输路径中各网络模块依据损失值进行修正,更新传输路径中的各网络模块的参数。继续进行训练,在输入第四批训练图像后,得到目标识别系统的输出损失值收敛至50。在测试样本集中选择16张图像,进行归一化处理后输入目标识别系统中,得到12张图片的质心与标注的质心相同,即得到输出的准确率为75%,未达到平均准确率。需要继续进行系统训练,输入第五批训练图像后,损失值收敛至5,测试集输入后,准确率上升至80%。为了保证更高的准确率,继续进行一次系统训练,随后目标识别系统的准确率上升至83%。停止训练,开始进行目标识别系统的使用。
步骤3:使用训练后的目标识别系统进行目标物种类和质心的识别。
3.1、向训练后的目标识别系统输入待检测图像,目标识别系统中的前端提取网络提取检测图像的图像特征。
待检测图像输入前只需归一化处理。待检测图像输入后,前端提取网络进行两次图像特征提取,分别为初次图像特征和二次图像特征。
二次图像特征通过对待检测图像进行上采样处理后,提取获得。初次图像特征,用于计算目标物候选边框的坐标;二次图像特征,用于确认目标物边框和目标物质心。
初次图像特征和二次图像特征中的图像特征包括:图像中各物质的边缘、各物质的纹理和各物质的尺寸等特征。
3.2、依据提取的图像特征,目标识别系统中的目标检测网络计算目标物的候选边框坐标,再采用非极大值抑制法筛选出目标物边框,并输出目标物种类;
3.2.1、目标检测网络接收到提取的初次图像特征后,依据初次图像特征计算图像物体的候选边框的坐标。
由于待检测图像内会含有多个物体,在目标识别系统训练过程中会明确识别所需目标物的种类,使得目标识别系统在训练后,具有确认目标物种类的功能。目标检测网络会依据初次图像特征,对图像内物体均会框选,作为图像中的候选边框。
3.2.2、依据候选边框的坐标和二次图像特征,确认目标物,再采用非极大值抑制方法对重叠的候选框进行筛选,获取目标物边框。
目标物的确认包括:依据二次图像特征,计算图像内各物体为目标物种类的类别概率,得出一组概率分布,取概率最大值对应的种类即为该目标物所属的种类,保留该种类对应的候选边框,即得到目标物候选边框。
示例性的,待检测图像中分布有A、B、C、D五类物体。并对该五类物体均进行了候选边框坐标计算。由于目标识别系统在训练过程中明确所需目标物为A类物体。依据提取后的二次图像特征,计算出A类物体为目标物的概率为98%,B类物体为目标物的概率为60%,C类的概率为20%,D类为30%,则直接确认目标物为待检测图像中的A类物体。
由于候选边框是对同一个目标物进行了多次的预测,因此会出现候选框的重叠,需采用非极大值抑制方法删除预测效果较差的候选边框,最终得到最优的目标物边框。
目标物边框的筛选过程如下:对于候选边框,依据候选边框内物体是否为目标物的类别概率,对候选边框进行分类,将对应最大类别概率的种类即为目标物所属的类别,即确认目标物;
对同属于一种类别的目标物候选边框,依据获取的二次图像特征计算各候选边框的置信度,并按照置信度对目标物候选边框降序排列;
任选一个目标物,从该目标物的第一个候选边框开始计算与相邻候选边框的交叠率,若交叠率大于设定阈值,则删除相邻的候选边框;
从未处理的另一目标物候选边框中继续选择一个置信度最高的候选框,重复以上操作直至遍历完所有目标物的候选边框;
选择置信度最高的候选边框,作为目标物边框;
输出最终目标物边框和该目标物对应的种类。
示例性的,如图2所示,确认目标物种类后,还剩余8个候选边框,8个候选边框是对图中三个位置不同的目标物进行分别标记。将框选同一个目标物的边框归为一类,将图中8边框按分布位置标记为a、b,标记后的图像如图2A所示;
选取a处的图像,对所有a处的图像进行置信度排序,排序后如图2B所示,a1候选框的置信度最高,a4候选框的置信度最低;
选取a1候选框,判断相邻候选框与a1候选框交叠率,若设定阈值为0.5,即a1候选框与a1的相邻候选框交叠率大于0.5,则删除相邻候选框,由于a2候选框与a1候选框交叠率大于0.5,删除a2候选框。由于a3图像与a1图像的交叠率小于0.5,保留a3候选框,最终判断结果如图2C所示;
再判断b处图像,对b处图像标记后如图2D所示,由于b3、b4图像与b1、b2图像不重合,是对两个目标物进行判断。先选取置信度最高的b1候选框,进行交叠率判断,删除b2边框,如图2E所示;
继续挑选另一处边框,若b3图像比b4图像的置信度大,且交叠率小于0.5,则删除b4图像。
最后输出置信度最高的a1图像、b1图像和b3图像,如图2F所示。
3.3、依据目标物边框和图像特征,将目标物边框内的图像分割成栅格大小,进行质心概率预测。
目标识别系统的质心检测网络会接收目标检测网络传输的目标物边框和目标物种类,并且接收前端提取网络传输的二次图像特征。
目标识别系统的质心检测网络的质心检测包括:
目标物边框特征图处理:采用ROI插值法获取目标物边框在二次图像特征图中对应的区域,即获得边框特征图;
随后对边框特征图进行插值处理,设置边框特征图的初始维度。
边框特征图的栅格分割:通过对边框特征图进行维度降低处理,实现对边框特征图的栅格分割。将边框特征图维度降低至预设维度,即实现将边框特征图分割至所需栅格。维度降低处理通过三维矩阵换算完成。
预测每个栅格内含有质心的概率:依据二次图像特征,对栅格内图像继续进行维度降低处理,直至边框特征图的深度维度降低至最终维度;
最终维度包含:质心的置信度和质心的横、纵坐标,即边框特征图栅格分割后的仅包含质心的置信度和质心的横、纵坐标3个信息。即可将质心的置信度最高的确定为质心位置。
质心的置信度通过质心检测网络回归得出,回归函数采用sigmoid函数,通过sigmoid函数的计算,将每个栅格内含有质心的概率约束至0-1的范围内。选择质心概率择趋向于1的栅格作为质心位置,并将质心位置标记输出。
示例性的,以图2中输出的a1目标物边框和b1目标物边框进行质心检测示例性说明。
质心检测网络获取a1、b1的边框特征图,设置边框特征图的初始维度为28*28;
对边框特征图逐步进行维度降低,降低至14*14,再继续降低至7*7,最后降低至3*3,使得边框特征图栅格分割后仅包含质心的置信度和质心;
分割至最终维度的过程中,采用sigmoid函数对a1、b1边框内的各个栅格进行质心概率计算,得出如图3A、图3B所示的质心概率分布图。
由图3A可知,对于a1边框,坐标为(7,9)的栅格概率值最大,即为a1边框内目标物的质心位置,将坐标(7,9)的栅格标记为a2目标物的质心位置。
由3B可知,对于b1边框,坐标为(4,8)的栅格概率值最大,即为b1边框内目标物的质心位置,将坐标(4,8)的栅格标记为b1目标物的质心位置。
将各边框内质心位置标记后,输出质心标记后的图像。
通过本发明的目标识别方法,对含有目标物的图像进行分析,确定目标物的边框位置和种类,再通过对目标物边框栅格分割,从而精确识别目标物的质心。
一种可定位目标物质心的目标识别系统,如图4所示,目标识别系统包括:前端提取网络、目标检测网络和质心检测网络。
前端提取网络,用于接收含目标物的待检测图像,并提取待检测图像的图像特征。前端提取网络由卷积模块组成,卷积模块用于获取待检测图像内的各物体特征,示例性,各物体特征可为各物质边缘、纹理、尺寸等。
前端提取网络包括4个卷积模块,具体的,卷积模块结构为:卷积层—批归一化层—激活层—最大池化层。
卷积层在处理待检测图片时,能够获取待检测图片内各物质的边缘和纹理;批归一化层可提高网络训练速度,避免梯度扩散,帮助卷积模块内的运行网络收敛,加快特征提取速度;
激活层采用的激活函数为线性整流函数即ReLU(Rectified Linear Unit),克服卷积模块处理过程中梯度消失的问题,减小图像读取误差,同时加快特征提取速度;
最大池化层用于对卷积层获取的特征进行最佳纹理特征筛选,摒除相似特征,确保经过卷积模块处理后的图像具有较为清晰的边缘和纹理特征。
前端提取网络获取初步图像特征后,为了维持图像维度平衡,会将待检测图像进行上采样特征提取,即将图像放大后,重复进行一次图像特征获取,得到二次图像特征。初步图像特征用于判断目标物的位置,二次图像特征则用于确认目标物边框和目标物质心。
目标检测网络,用于接收前端提取网络提取的待检测图像特征,并依据图像特征在待测图像中提取目标物边框,并获取目标物的种类。
目标检测网络包括:RPN(Region Proposal Network)结构和RCNN结构。
RPN结构接收前端提取模块传输的初次图像特征后,从图像特征中提取出待检测图像中各类物体的候选边框坐标。将候选边框的坐标传输至RCNN结构。
RCNN结构接收候选边框的坐标,以及前端提取模块传输的二次图像特征。
RCNN结构接收到候选边框的坐标信息后,采用ROI插值法,从二次图像特征中获得目标物候选边框的图像特征,之后采用全连接层处理。其中,ROI插值法具体为双线性插值法。最后RCNN结构输出目标物的边框和目标物种类。
具体的,RCNN结构先依据目标物候选边框的图像特征,确认目标物:依据目标物候选边框的图像特征,计算图像内各物体为目标物种类的概率,得出一组概率分布,取概率最大值对应的种类即为该目标物所属的种类,保留该种类的边框坐标,作为目标物候选边框坐标。
RCNN结构获取目标物候选边框坐标,依据目标物候选边框的图像特征,计算目标物候选边框的置信度,并从目标物候选边框中采用非极大值抑制法筛选出目标物边框,输出目标物边框及目标物的种类。
目标检测网络根据图像特征输出目标物的种类和目标物的边框,并将种类和边框传输至质心检测网络。
质心检测网络,用于对目标物边框内的图像进行栅格分割,确认质心位置。
质心检测网络包括:特征处理结构、残差卷积结构和质心检测结构。
特征处理结构,接收前端特征提取模块输出的图像二次特征,和目标检测网络传输的目标物边框、目标物种类,并依据目标物边框位置处理二次图像特征。
具体,特征处理结构采用ROI插值法获取目标物边框在二次图像特征图中对应的区域,将边框区域的特征图筛选出来后再进行插值,设置边框特征图的初始维度。其中,插值使用的是双线性插值方法,插值后目标物边框特征图的维度变化为初始维度。示例性的,插值后目标物边框特征图的维度变为28*28。
残差卷积结构,用于减少图像传输的损失,并且继续降低栅格分割后目标物边框特征图像的维度,实现目标物边框图像的栅格分割。
残差卷积结构避免图像传输过程中梯度消失的现象,确保目标物边框特征图更加准确。残差卷积结构可设置多个,逐步降低目标物边框特征图的维度,至预设维度,即实现对边框特征图的栅格分割。其中,维度的降低通过三维矩阵变换实现。
示例性的,如图4所示,在质心检测网络中设置两个残差卷积模块。当插值后目标物边框特征图的维度变为28(28*28),经过一个残差卷积模块的处理后,将目标物边框特征图的维度转换至14(14*14),再经过另一个残差卷积模块的处理将目标物边框特征图的维度转换至7*7。即实现将目标物边框特征图栅格分割为7*7。
质心检测结构,用于确定栅格内质心位置质心位置依据二次图像特征,质心检测结构利用内置残差卷积结构继续不断分割栅格后的图像,即继续对栅格分割后的图像进行维度降低处理,直至边框特征图的深度维度降低至最终维度。
在本实施例中边框特征图的最终维度为3,分别为质心的置信度、质心的横坐标及质心的纵坐标。
通过最终维度即可确定待检测图像的质心位置。
本实施例的目标识别系统还包括检测模块,检测模块内存储有损失函数。检测模块,用于在目标识别系统训练过程中,检测训练集前向传播过程中各模块的损失值。使得训练集反向传播时,各模块能够依据损失值更新各模块的参数,从而降低整个目标识别系统的损失值。
综上,通过深度学习法构建目标识别系统,能够对待检测图像中的边缘、纹理、尺寸等特征进行有效分析,确认目标物的种类对目标物边框进行栅格分割,从而精确检测目标物的质心。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (19)
1.一种可定位目标物质心的目标识别方法,其特征在于,所述目标识别方法包括:
建立含目标物质心信息的数据集;
构建目标识别系统,并通过所述数据集训练所述目标识别系统;
使用训练后的所述目标识别系统识别目标物质心;
所述目标识别系统识别目标物质心包括:
输入待检测图像,所述目标识别系统提取所述待检测图像的图像特征;
依据所述图像特征,计算候选边框的坐标,并采用非极大值抑制法从所述候选边框中筛选出目标物边框坐标;
依据所述目标物边框和所述图像特征,对所述目标物边框内的图像栅格分割,确认所述目标物的质心位置。
2.根据权利要求1所述的目标识别方法,其特征在于,所述数据集为图像集,所述图像集的图像信息包括:目标物的位置边框、种类和质心位置。
3.根据权利要求1或2所述的目标识别方法,其特征在于,所述数据集的建立包括:
通过在不同的光照环境下拍摄目标物图像,手动标注出拍摄的目标物图像内目标物的位置边框、种类及质心位置;
将所述数据集化分为训练集和测试集,所述训练集用于训练所述目标识别系统,所述测试集用于评估所述目标识别系统的有效性。
4.根据权利要求1所述的目标识别方法,其特征在于,所述图像特征包括初次图像特征和二次图像特征;
初次图像特征,用于计算所述候选边框的坐标;
二次图像特征,用于筛选目标物边框和确认目标物质心。
5.根据权利要求1或2所述的目标识别方法,其特征在于,确认所述目标物的质心位置包括:
接收所述目标物边框,从所述图像特征的二次图像特征中,获取所述目标物边框的边框特征图;
所述边框特征图通过降低所述边框特征图的维度至预设维度,进行栅格分割;
继续降低栅格分割后所述边框特征图的维度,至所述边框特征图的维度为最终维度;
将最终维度内置信度最高的栅格位置标记为质心位置。
6.根据权利要求5所述的目标识别方法,其特征在于,所述最终维度包括:质心的置信度、质心的横坐标和质心纵坐标。
7.根据权利要求5所述的目标识别方法,其特征在于,所述质心的置信度通过sigmoid函数的回归计算获得。
8.根据权利要求1所述的目标识别方法,其特征在于,所述通过所述数据集训练所述目标识别系统包括:
预处理所述数据集中的训练集图像;
将预处理后的所述训练集图像输入所述目标识别系统中进行前向传播,并在前向传播过程中,通过损失函数获得传输路径中所述目标识别系的输出损失值后,将所述训练集图像通过Adam优化器进行反向传播;
在所述反向传播中将所述输出损失值按训练集图像的传输路径返回,对所述目标识别系统的参数进行更新,收敛所述目标识别系统的输出损失值;
当所述输出损失值收敛降低至预设收敛值后,将所述数据集中的测试集图像输入所述目标识别系统中进行质心位置判断,得出所述测试集图像质心判断的平均准确率;
若所述平均准确率大于或等于预设准确率,则所述目标识别系统训练成功,否则继续训练所述目标识别系统,直至所述平均准确率大于或等于预设准确率。
9.根据权利要求8所述的目标识别方法,其特征在于,所述损失函数由(1)式表示:
L=Lrpn+Lcls+Lconf+Lloc (1),
(1)式中,L为目标识别系统的总损失函数,Lrpn为候选边框位置和候选边框置信度损失,Lcls为目标物种类损失,Lconf为质心预测概率损失,Lloc为质心位置损失。
14.根据权利要求1或2所述的目标识别方法,其特征在于,所述目标物边框坐标的筛选包括:依据所述图像特征的初次图像特征计算所述待检测图像内各物体候选边框坐标;
从所述图像特征的二次图像特征中获取所述目标物候选边框的特征,依据所述目标物候选边框的特征筛选所述目标物边框;
其中,所述采用非极大值抑制法从所述候选边框中筛选出目标物边框包括:
依据所述目标物候选边框的特征计算候选边框内各物体为目标物种类的类别概率,将对应最大类别概率的种类确认为目标物,保留目标物的候选边框坐标;
依据所述目标物候选边框的特征,计算所述目标物候选边框的置信度,并按照置信度对所述目标物候选边框降序排列;
从任一目标物的第一个候选边框开始计算与相邻候选边框的交叠率,若交叠率大于设定阈值,则删除相邻的候选边框;
从未处理目标物的候选边框中继续选择一个置信度最高的候选框,重复以上操作直至遍历完所有候选边框;
选择置信度最高的候选边框,输出为所述目标物边框。
15.一种可定位目标物质心的目标识别系统,其特征在于,所述目标识别系统包括:前端提取网络、目标检测网络和质心检测网络;
前端提取网络,用于接收含目标物的待检测图像,并提取所述待检测图像的图像特征;
目标检测网络,用于依据所述图像特征计算候选边框的坐标,并采用非极大值抑制法从所述候选边框中筛选出目标物边框;
质心检测网络,依据所述目标物边框和所述图像特征,对所述目标物边框内的图像进行栅格分割,确认所述目标物的质心位置。
16.根据权利要求15所述的目标识别系统,其特征在于,所述前端提取网络包括四个卷积模块,所述卷积模块结构为:卷积层—批归一化层—激活层—最大池化层。
17.根据权利要求15或16所述的目标识别系统,其特征在于,所述前端提取网络内的激活层采用的激活函数为线性整流函数。
18.根据权利要求15所述的目标识别系统,其特征在于,所述目标检测网络包括RPN结构和RCNN结构;
RPN结构,用于依据所述图像特征的初次图像特征计算图像内各物体候选边框坐标;
RCNN结构,用于从各物体候选边框坐标中保留目标物候选边框坐标,并采用非极大值抑制法从所述目标物候选边框坐标中筛选目标物边框坐标;
RCNN结构通过ROI插值法,从所述图像特征的二次图像特征中获取目标物候选边框的图像特征,所述目标物候选边框的图像特征用于确认目标物种类及目标物候选边框。
19.根据权利要求15所述的目标识别系统,其特征在于,所述质心检测网络包括:特征处理结构、残差卷积结构和质心检测结构;
特征处理结构,用于接收所述目标物边框和目标物种类,从所述图像特征的二次图像特征中,获取目标物边框的边框特征图;
残差卷积结构,通过降低所述边框特征图的维度至预设维度,栅格分割所述边框特征图;
质心检测结构,降低栅格分割后所述边框特征图的维度至最终维度,确定最终维度内质心置信度最高的栅格为所述待检测图像的质心位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739757.5A CN112396648B (zh) | 2019-08-12 | 2019-08-12 | 一种可定位目标物质心的目标识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739757.5A CN112396648B (zh) | 2019-08-12 | 2019-08-12 | 一种可定位目标物质心的目标识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396648A true CN112396648A (zh) | 2021-02-23 |
CN112396648B CN112396648B (zh) | 2024-04-30 |
Family
ID=74602207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910739757.5A Active CN112396648B (zh) | 2019-08-12 | 2019-08-12 | 一种可定位目标物质心的目标识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396648B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373144A (zh) * | 2021-12-08 | 2022-04-19 | 上海海洋大学 | 一种用于高速视频中圆形标识点的自动识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292234A (zh) * | 2017-05-17 | 2017-10-24 | 南京邮电大学 | 一种基于信息边缘和多模态特征的室内场景布局估计方法 |
CN109447979A (zh) * | 2018-11-09 | 2019-03-08 | 哈尔滨工业大学 | 基于深度学习和图像处理算法的目标检测方法 |
CN109685066A (zh) * | 2018-12-24 | 2019-04-26 | 中国矿业大学(北京) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 |
CN109948607A (zh) * | 2019-02-21 | 2019-06-28 | 电子科技大学 | 基于深度学习反卷积网络的候选边框生成和目标检测方法 |
CN110070557A (zh) * | 2019-04-07 | 2019-07-30 | 西北工业大学 | 一种基于边缘特征检测的目标识别与定位方法 |
-
2019
- 2019-08-12 CN CN201910739757.5A patent/CN112396648B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292234A (zh) * | 2017-05-17 | 2017-10-24 | 南京邮电大学 | 一种基于信息边缘和多模态特征的室内场景布局估计方法 |
CN109447979A (zh) * | 2018-11-09 | 2019-03-08 | 哈尔滨工业大学 | 基于深度学习和图像处理算法的目标检测方法 |
CN109685066A (zh) * | 2018-12-24 | 2019-04-26 | 中国矿业大学(北京) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 |
CN109948607A (zh) * | 2019-02-21 | 2019-06-28 | 电子科技大学 | 基于深度学习反卷积网络的候选边框生成和目标检测方法 |
CN110070557A (zh) * | 2019-04-07 | 2019-07-30 | 西北工业大学 | 一种基于边缘特征检测的目标识别与定位方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373144A (zh) * | 2021-12-08 | 2022-04-19 | 上海海洋大学 | 一种用于高速视频中圆形标识点的自动识别方法 |
CN114373144B (zh) * | 2021-12-08 | 2024-09-06 | 上海海洋大学 | 一种用于高速视频中圆形标识点的自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112396648B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027547B (zh) | 一种针对二维图像中的多尺度多形态目标的自动检测方法 | |
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN110148130B (zh) | 用于检测零件缺陷的方法和装置 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN111626993A (zh) | 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统 | |
CN109815770A (zh) | 二维码检测方法、装置及系统 | |
CN112926652B (zh) | 一种基于深度学习的鱼类细粒度图像识别方法 | |
CN111652213A (zh) | 一种基于深度学习的船舶水尺读数识别方法 | |
AU2020272936B2 (en) | Methods and systems for crack detection using a fully convolutional network | |
CN110633711B (zh) | 训练特征点检测器的计算机装置、方法及特征点检测方法 | |
CN113052215A (zh) | 基于神经网络可视化的声呐图像自动目标识别方法 | |
CN111507957A (zh) | 身份证图片转换方法、装置、计算机设备及存储介质 | |
CN112991280B (zh) | 视觉检测方法、系统及电子设备 | |
CN114972759A (zh) | 基于分级轮廓代价函数的遥感图像语义分割方法 | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及系统 | |
CN118097755A (zh) | 一种基于yolo网络的智慧人脸身份识别方法 | |
CN115457044B (zh) | 基于类激活映射的路面裂缝分割方法 | |
CN115019163A (zh) | 基于多源大数据的城市要素识别方法 | |
CN117037049B (zh) | 基于YOLOv5深度学习的图像内容检测方法及系统 | |
CN112396648A (zh) | 一种可定位目标物质心的目标识别方法和系统 | |
CN118334336A (zh) | 阴道镜图像分割模型构建方法、图像分类方法和装置 | |
CN115830302B (zh) | 一种多尺度特征提取融合配电网设备定位识别方法 | |
CN116433596A (zh) | 一种边坡坡面植被覆盖率测量方法、装置及相关组件 | |
CN114842506A (zh) | 一种人体姿态估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |