CN110334706B

CN110334706B - 一种图像目标识别方法及装置

Info

Publication number: CN110334706B
Application number: CN201910576843.9A
Authority: CN
Inventors: 程雪岷; 毕洪生; 程凯常; 蔡中华; 牛嘉琪; 任勇
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2021-06-01
Anticipated expiration: 2037-06-30
Also published as: CN107330465A; WO2019000653A1; CN110334706A; CN107330465B

Abstract

本发明公开了一种图像目标识别方法及装置。图像目标识别方法包括以下步骤：S1，将图像中各像素点二值化处理，划分为有效像素点和背景点；S2，根据图像的像素点的总个数和待识别的目标的尺寸范围设定第三阈值的大小，将二值化图片中已连通的区域内的有效像素点的个数与第三阈值进行比较，如果小于第三阈值，则将该区域内的像素点均设置为背景点，从而去除该区域；S3，对剩余的已连通的各区域确定出其外接矩形框，形成框取区域；S4，将框取区域有重叠的已连通区域视为合并的整体区域，确定出整体区域的外接矩形框；图像中，外接矩形框中的图像内容为识别到的目标。本发明的目标识别方法可针对对比度较低的图像有效地识别出图像中的各目标对象。

Description

一种图像目标识别方法及装置

本申请是申请号为201710526661.1、名称为“一种图像目标识别方法及装置”的发明专利申请的分案申请。

【技术领域】

本发明涉及一种图像目标识别方法及装置。

【背景技术】

图像中目标识别是采用各种算法将图像中特定的目标或特征在机器中区分出来的过程，并且将区分出的目标进行下一步处理提供基础。在信息化网络化的今天，可以广泛应用到许多领域。人眼在进行识别某个特定目标时速度往往较慢，若需要对于大量数据或大量图像进行识别或区分，则需要耗费大量的人力物力，采用机器识别代替人眼识别，利用计算机计算量代替人眼的用脑量可以提高速度与降低能耗，对于图像识别领域而言是非常有利的。例如：对一千幅十字路口的视频帧图片进行识别，要求找出通过的车流量，明显采用机器识别远远有利于人眼识别；同样的，若给机器人加上图像目标识别系统，则相当于给机器人添加了“眼睛”，对于发展AI技术也是非常有利的。目前，人们不仅将图像识别技术应用于人脸识别，物品识别等方面，还将其应用在了手写识别等方面，极大地方便了人们的生活。

图像目标识别技术一般为以下流程：图像预处理、图像分割、特征提取和特征识别或匹配。但是所处理的图像一般为较清晰的图像，对于对比度较低的图像办法很少，很难分割提取出有效的目标特征。

【发明内容】

本发明所要解决的技术问题是：弥补上述现有技术的不足，提出一种图像目标识别方法及装置，可针对对比度较低的图像有效地识别出图像中的各目标对象。

本发明的技术问题通过以下的技术方案予以解决：

一种图像目标识别方法，包括以下步骤：S1，将图像中各像素点二值化处理，划分为有效像素点和背景点，从而将图像转换为二值化的图片；S2，根据图像的像素点的总个数和待识别的目标的尺寸范围设定第三阈值的大小，将二值化图片中已连通的区域内的有效像素点的个数与第三阈值进行比较，如果小于所述第三阈值，则将该区域内的像素点均设置为背景点，从而去除该区域；S3，对剩余的已连通的各区域确定出其外接矩形框，形成框取区域；其中，外接矩形框的四条边分别与图像的四条边平行；S4，将框取区域有重叠的已连通区域视为合并的整体区域，确定出整体区域的外接矩形框，外接矩形框的四条边分别与图像的四条边平行；图像中，外接矩形框中的图像内容为识别到的目标。

一种图像目标识别装置，包括二值化处理模块、区域去除模块、区域框取模块和区域合并模块；其中，所述二值化处理模块用于将图像中各像素点二值化处理，划分为有效像素点和背景点，从而将图像转换为二值化的图片；所述区域去除模块用于根据图像的像素点的总个数和待识别的目标的尺寸范围设定第三阈值的大小，将二值化图片中已连通的区域内的有效像素点的个数与第三阈值进行比较，如果小于所述第三阈值，则将该区域内的像素点均设置为背景点，从而去除该区域；区域框取模块用于对剩余的已连通的各区域确定出其外接矩形框，形成框取区域；其中，外接矩形框的四条边分别与图像的四条边平行；所述区域合并模块用于将框取区域有重叠的已连通区域视为合并的整体区域，确定出整体区域的外接矩形框，外接矩形框的四条边分别与图像的四条边平行，外接矩形框中的图像内容为识别到的目标。

本发明与现有技术对比的有益效果是：

本发明的图像目标识别方法及装置，通过二值化处理后转换为二值化图片，并根据图像中像素点的个数与待识别目标尺寸范围设置阈值进行比较后，有效地舍去背景区域。最后通过连通域方法对图像进行分割以及合并，从而有效地识别到目标在图像中所在的位置和在图像中的数量。本发明通过上步骤，可提高对对比度较低、图像特征不清晰的图像进行识别的准确率。

【附图说明】

图1是本发明具体实施方式的图像目标识别方法的流程图；

图2是本发明具体实施方式的整幅图像转为二值化的图片的效果图；

图3是图2经过优化去除散点噪音后的效果图；

图4是图3中经过去除干扰区域后的效果图；

图5是本发明具体实施方式的图像中确定外接矩形框后的效果图；

图6是本发明具体实施方式的图像中部分区域合并确定外接矩形框后的效果图；

图7是本发明具体实施方式的支持向量机二元分类的原理图；

图8是本发明具体实施方式的支持向量机多元分类的原理图；

图9是本发明具体实施方式的第一种分类过程的流程图；

图10是本发明具体实施方式中待提取边缘信息的原图；

图11是图10中感兴趣区域的图像；

图12是图11中经过特征点提取后获得的图像；

图13是本发明具体实施方式中特征点统计方法中的分布示意图。

【具体实施方式】

下面结合具体实施方式并对照附图对本发明做进一步详细说明。

如图1所示，为本具体实施方式中图像目标识别方法的流程图，包括以下步骤：

S1，将图像中各像素点二值化处理，划分为有效像素点和背景点，从而将图像转换为二值化的图片。

该步骤中，二值化转换处理，便于后续识别到目标所在的位置。二值化时，优选地，按照如下步骤进行：以像素点为中心设定第一窗口，通过第一窗口内像素点的像素值的平均值和标准差设置第一阈值的大小，以所述第一阈值与像素点的像素值进行比较，如果像素值大于第一阈值，则将像素点设为有效像素点；否则，将像素点设为背景点。

其中，第一阈值可根据如下式子设置得到：

其中，以像素点(x,y)为中心时，T(x,y)表示对应于所述像素点(x,y)的第一阈值；R表示整幅图像的像素点的像素值的标准差的动态范围；k为设定的偏差系数，取正值；m(x,y)表示所述第一窗口内像素点的像素值的平均值；δ(x,y)表示所述第一窗口内像素点的像素灰度值的标准差。通过上述计算式子，可使得第一阈值随第一窗口中像素点的像素灰度值的标准差自适应调整。

该过程中，以像素点为中心进行窗口滑动，通过第一窗口内像素点的平均像素值、像素值标准差设置阈值。对于图像高对比度区域，标准差δ(x,y)趋近于R，这样设置得到的阈值T(x,y)则近似等于均值m(x,y)，即将中心像素点(x,y)的像素值与一个近似于局部窗口的平均像素值的阈值进行比较，大于阈值，也即表明大于平均像素值，从而确认为有效像素点。对于局部对比度非常低的领域内，标准差δ(x,y)远小于R，这样设置得到的阈值T(x,y)则比均值m(x,y)要小。比较时，即将中心像素点(x,y)的像素值与一个小于局部窗口的平均像素值的阈值进行比较，而不是始终与固定的均值进行比较，这样可将大于阈值的中心像素点保留为有效的，避免遗漏模糊区域的潜在目标像素点。通过上述使用局部区域的方式设置各个像素点相对应比较的阈值，使用第一窗口中像素点的标准差自适应地调整阈值的大小，使得阈值随图像的对比度自适应调整，从而可对图像中各个像素点进行精确划分，避免因图像模糊而遗漏有效像素点。

将第一阈值与像素点的像素值比较，若像素值大于阈值，则该点为有效像素，可将其设置为白色点，如图2中所示的白色点；否则，为背景点，如图2中所示的黑色区域的像素点，从而将整幅图像转为二值化的图片。

进一步优选地，还包括对二值化处理后的图片进行再确认处理的过程，包括：以像素点为中心设定第二窗口，根据第二窗口内像素点的个数设置第二阈值的大小；将第二窗口内有效像素点的个数与所述第二阈值进行比较，如果大于所述第二阈值，则将该像素点设为有效像素点；否则，将该像素点设为背景点。该步骤中，第二窗口的大小可以与前述第一窗口的大小相同，也可以不相同。

其中，第二阈值可根据如下式子设置得到：

其中，floor函数表示向下取整运算，z表示所述第二窗口内像素点的个数。该计算方法中，以正方形窗口为例，

可表示边长，

表示对角线的平方，将其开根号取整后可近似为对角线长度的取整。即上述设置第二阈值的方式是利用第二窗口对角线上像素点的个数作为阈值。减去2的含义在于去掉自身的1个像素点，再去掉一个可能性的有效像素点，从而使阈值的设置较准确。当然，其余自定义设置阈值的方式也是可行的，只要能识别的绝大多数的有效像素点即可。

上述进一步优化的过程，在二值化的基础上，继续以像素点为中心选定第二窗口(窗口大小可自定)，以此为一个整体查看第二窗口内有效点的个数，与自设定的阈值进行比较。若比阈值大，则将中心的像素点设为有效像素点，否则为噪点，设为背景点，去除。该步骤，通过第二窗口的局部有效像素点个数的比较过程，可将周围有效像素点确实较多的中心像素点再次确认为有效点，而将周围有效像素点不太多的中心像素点确认为背景点，从而有效去除图2中图像中的散点。此外，也很重要的一点时，还可以将经过前述局部区域处理后产生的断点进行连接，例如可能有的黑色点在该过程中转变为白色，从而将相邻的白色点连接起来形成连通的白色区域。通过该进一步的优化过程，便于后续进行精确的区域识别。如图3所示，为进一步优化去除散点噪音后的效果图。

S2，根据图像的像素点的总个数和待识别的目标的尺寸范围设定第三阈值的大小，将二值化图片中已连通的区域内的有效像素点的个数与第三阈值进行比较，如果小于所述第三阈值，则将该区域内的像素点均设置为背景点，从而去除该区域。

经过二值化处理后的图片，某些区域的零散的有效像素点，某些区域集中了较多的有效像素点，从而形成已连通的区域。该过程，对整张二值化图片中的已连通域进行筛选，以检测到目标所在的区域，而对于干扰的区域，则予以去除。

具体地，设置第三阈值的大小，根据整幅图像的像素点的总个数与待识别的目标的尺寸范围设定第三阈值的大小。可根据如下式子设置第三阈值的大小：{(a*b)*c/d}/e，其中，a*b表示整幅图像中所有的像素点个数，a表示宽度方向的像素点个数，b表示长度方向的像素点个数；c表示待识别目标的最小尺寸；d表示待识别目标的最大尺寸；e表示估算的a*b大小的图片最多包含的待识别目标的数量。以待识别的目标为浮游生物为例，浮游生物的大小尺寸范围一般在20μm～5cm的范围内。通过浮游生物采集设备获取的图片包含的像素点总个数为2448*2050。估算一张图最多包含10个最大的浮游生物(估算时，可以按照整张图的尺寸和生物尺寸1:1看待，整张图片的尺寸是3厘米*3.5厘米，为10.5平方厘米，以浮游生物平均占1平方厘米的面积，所以四舍五入估算为最多包括10个)。设置第三阈值时，由[(2448*2050)*20/50000]/10设定得到第三阈值为200.736。

将已连通的区域内的有效点的个数和设定的第三阈值进行比较，小于该第三阈值，则表明这些连通的区域内的有效点不足，为干扰区域，从而将该区域内的像素点均设置为背景点，舍去该区域。如图4所示，为图3中舍去干扰区域后的效果示意图。

S3，对剩余的已连通的区域确定出其外接矩形框，形成框取区域；其中，外接矩形框的四条边分别与图像的四条边平行。

经过步骤S2，已连通的区域中，部分区域被舍去，部分区域被保留。对剩余保留的已连通的各区域，通过上述步骤S3，确定出各区域的水平方向的外接矩形框，形成框取区域。外接矩形框即为一个矩形，矩形的四条边分别穿过区域的上下左右四个边界像素点(最上、最下、最左和最右的像素点)。水平方向的外接矩形框，表示矩形框的四条边分别平行于图像的四条边，是水平的。确定出外接矩形框后，矩形框内的内容即为框取区域。如图5所示，为确定外接矩形框后的效果示意图。

S4，将框取区域有重叠的已连通区域视为合并的整体区域，确定出整体区域的外接矩形框，外接矩形框的四条边分别与图像的四条边平行，外接矩形框中的图像内容为识别到的目标。

对于框取的区域，有些区域是独立零散的，有些区域彼此有重叠。对于矩形框有重叠的部分，将这部分的已连通区域视为合并的整体区域，对该整体区域确定出其水平方向的外接矩形框。

如图6所示，为经过步骤S4后，图像中确定出外接矩形框后的效果示意图。相对于图5，图6中的有些区域由一个外接矩形框合并框取。图6中，各外接矩形框中的图像内容即为识别到的目标，从而筛选出疑似目标所在的位置，及相应的数量。

本具体实施方式中，经过上述步骤，处理模糊图像(例如浑浊度较高的水体中成的像)时，通过局部阈值进行比较，精确二值化划分像素点为有效点或者背景噪声点，然后对于二值化后的已连通域进行再次去噪，连通域框取处理以及合并处理，从而对图像进行有效的分割，提取出目标所在的感兴趣区域，可提高对对比度较低、图像特征不清晰的图像进行识别的准确率。该目标识别方法尤其适合在水中拍摄的浮游生物的识别。

识别到目标所在的区域后，可进一步地结合分类方法对区域内的图像内容进行分类处理，识别目标的类别信息。本具体实施方式中，通过如下两种分类方案分别从边界梯度、形态结构单元特征两个方面进行分类。当然，实际应用中，也可根据实际情况选择更适用的其它分类方法。

为便于分类识别处理，对提取出的各区域进行归一化处理，处理为包含有128*128个像素点的图像。

第一种分类方案：采用SVM+HOG的分类方法分析边界梯度进行分类。对归一化后得到的图像进行简单的背景去噪处理后，提取图形的边缘密度和边界梯度进行统计成直方图，从而由支持向量机(SVM)结合方向梯度直方图(HOG)对待测图片进行分析，分辨出是哪种类别的目标。SVM是一个传统的二元分类器，其原理如图7所示。其中，x₁表示下方线条更密集的样本点；x₂表示上方线条稀疏的样本点。ω^Tx+b＝0的含义是：用线性方程来划分不同样本的超平面；线性方程右侧的1和-1分别代表两个种类。

表示两个类别的最外层平行面之间的距离。以待识别的目标为浮游生物为例，浮游生物种类繁多，仅二元是不够的，因此本具体实施方式中将其优化为多种类分类器。

分类过程包括以下步骤：

分类之前先对样本进行训练(样本是事先已挑选的)。训练过程为：将n类样本按照二分法的方式分成1～n/2和n/2+1～n两类，再对这两类包含的样本进行图形的边缘密度和边界梯度统计；重复该过程，将这两类继续按照二分的方法继续分类和统计，直到将样本分类至其中单独的一个类别，即表示训练结束。原理图如图8所示。

分类时，对归一化处理后的各连通域的图像，分别提取各区域中图像的边缘密度和边界梯度，根据边缘密度和梯度信息，与训练获得的样本的统计信息进行比较，将图像分类为n个大类中的n/2个类别中，重复分类过程，将图像分类至n/2个类别中n/4个类别中，重复分类，直至图像分类至其中一个类别中，从而得到图像所属的生物类别。分类的流程图如图9所示。

查找确定类别时，由于待检测的图像对于分类器来说未知，所以时间对于查找种类来说最为重要，最常见的查找方式和排序方式为冒泡法、二分法和快速排序。从时间复杂度上看，冒泡算法为O(n²)，二分法为O(log₂n)，快速排序为O(n*logn)，本具体实施方式中最终选取二分法为查找手段。

第二种分类方案：采用特征点分布算法(shape-context)分析形态结构单元特征进行分类。采用边缘快速提取算法提取特征点。该算法可以直接将图形的边缘提取出来，从而可以将提取出来的点作为特征点，更为有效地看出图形的边缘及特征分布情况。该边缘快速提取算法提取精确，且耗时也较短。以图10所示的原图为例，其大小为2448*2050，感兴趣区域的浮游生物图像为图11所示，大小为210*210，提取疑似浮游生物区域的特征点的过程耗时为54秒，提取后得到的特征点(黑色像素点)的图像如图12所示。

分析边界梯度进行分类的过程包括以下步骤：

分类之前对样本进行训练(样本是是事先已挑选的)，训练过程为：将样本通过边缘快速提取算法进行处理得到边缘和特征点的分布情况，再通过图13所示的特征点统计方法对特征点分布进行统计，将每种样本的特征点分布情况分别统计在各自的一个文本中，统计出所有样本的特征点分布情况即完成训练。图13所示的统计方法为：以特征点为中心进行8等分(45°为一个区域，360°平分成8个区域)，再根据图形特征大小向外扩散5个区域，即以该特征点为中心，到能包含所有特征点的外接圆的最大半径，将这个最大半径分五等分，构成五个圆，同时每个圆按照上述分成8个区域，由此将图形中所有特征点划分到40个区域内。

分类时，将归一化处理后的各连通域的图像通过边缘快速提取算法进行处理得到边缘和特征点的分布情况，再通过图13所示的方法对特征点分布进行统计，将待检测图像统计后的特征点分布结果和训练所得的每个样本的特征点分布统计结果进行比较，从而识别出待检测图像所属的类别。

通过上述设计出的多种类分类器以及多种类训练器可以更好地对目标，例如世界万千物种进行分类。

本具体实施方式中还提供一种图像目标识别装置，包括二值化处理模块、区域去除模块、区域框取模块和区域合并模块；其中，所述二值化处理模块用于将图像中各像素点二值化处理，划分为有效像素点和背景点，从而将图像转换为二值化的图片；所述区域去除模块用于根据图像的像素点的总个数和待识别的目标的尺寸范围设定第三阈值的大小，将二值化图片中已连通的区域内的有效像素点的个数与第三阈值进行比较，如果小于所述第三阈值，则将该区域内的像素点均设置为背景点，从而去除该区域；区域框取模块用于对剩余的已连通的各区域确定出其外接矩形框，形成框取区域；其中，外接矩形框的四条边分别与图像的四条边平行；所述区域合并模块用于将框取区域有重叠的已连通区域视为合并的整体区域，确定出整体区域的外接矩形框，外接矩形框的四条边分别与图像的四条边平行，外接矩形框中的图像内容为识别到的目标。本具体实施方式的目标识别装置可提高对对比度较低、图像特征不清晰的图像进行识别的准确率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下做出若干替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种图像目标识别方法，其特征在于：包括以下步骤：S1，将图像中各像素点二值化处理，划分为有效像素点和背景点，从而将图像转换为二值化的图片；S2，根据图像的像素点的总个数和待识别的目标的尺寸范围设定第三阈值的大小，将二值化图片中已连通的区域内的有效像素点的个数与第三阈值进行比较，如果小于所述第三阈值，则将该区域内的像素点均设置为背景点，从而去除该区域；S3，对剩余的已连通的各区域确定出其外接矩形框，形成框取区域；其中，外接矩形框的四条边分别与图像的四条边平行；S4，将框取区域有重叠的已连通区域视为合并的整体区域，确定出整体区域的外接矩形框，外接矩形框的四条边分别与图像的四条边平行；图像中，外接矩形框中的图像内容为识别到的目标；步骤S1中，对图像中各像素点进行如下二值化处理：以像素点为中心设定第一窗口，通过第一窗口内像素点的像素值的平均值和标准差设置第一阈值的大小，以所述第一阈值与像素点的像素值进行比较，如果像素值大于第一阈值，则将像素点设为有效像素点；否则，将像素点设为背景点；步骤S1中，还包括如下步骤：在二值化处理的基础上进行再确认处理：以像素点为中心设定第二窗口，根据第二窗口内像素点的个数设置第二阈值的大小；将第二窗口内有效像素点的个数与所述第二阈值进行比较，如果大于所述第二阈值，则将该像素点设为有效像素点，否则判断为噪点，将该像素点设为背景点，作为散点噪音去除。

2.根据权利要求1所述的图像目标识别方法，其特征在于：所述第一阈值根据如下式子设置得到：

其中，以像素点(x,y)为中心时，T(x,y)表示对应于所述像素点(x,y)的第一阈值；R表示整幅图像的像素点的像素灰度值的标准差的动态范围；k为设定的偏差系数，取正值；m(x,y)表示所述第一窗口内像素点的像素值的平均值；δ(x,y)表示所述第一窗口内像素点的像素灰度值的标准差。

3.根据权利要求1所述的图像目标识别方法，其特征在于：所述第二阈值根据如下式子设置得到：

其中，floor函数表示向下取整运算，z表示所述第二窗口内像素点的个数。

4.根据权利要求1所述的图像目标识别方法，其特征在于：步骤S2中，所述第三阈值根据如下式子设置得到：{(a*b)*c/d}/e，其中，a*b表示整幅图像中所有的像素点个数，a表示宽度方向的像素点个数，b表示长度方向的像素点个数；c表示待识别目标的最小尺寸；d表示待识别目标的最大尺寸；e表示估算的a*b大小的图片最多包含的待识别目标的数量。

5.根据权利要求1所述的图像目标识别方法，其特征在于：所述待识别的目标为待识别的浮游生物。

6.根据权利要求1所述的图像目标识别方法，其特征在于：还包括步骤S5，获取识别到的目标的种类信息：S51，样本训练：将n类样本按照二分法的方式分成1～n/2和n/2+1～n两大类，对这两大类包含的样本的图片进行图形的边缘密度和边界梯度统计；重复上述S51的过程，将两大类中的各自n/2类按照二分法的方式继续分类和统计，直至将样本分类至单独的一个类别，并统计出单独各个类别的样本的图形的边缘密度和边界梯度；S52，将目标所在的各区域进行归一化处理；S53，分类：对归一化处理后的各区域，分别提取各区域中图像的边缘密度和边界梯度，根据边缘密度和边界梯度信息，与步骤S51中训练获得的样本的统计信息进行比较，将图像分类至n个大类中的n/2个类别中，重复上述S53的分类过程，将图像分类至n/2个类别中n/4个类别中，重复分类过程，直至将图像分类至其中单独的一个类别中，从而获取得到区域中目标所属的类别信息。

7.根据权利要求1所述的图像目标识别方法，其特征在于：还包括步骤S6，获取识别到的目标的种类信息：S61，样本训练：将n类样本通过边缘快速提取算法进行处理得到边缘和特征点的分布情况，再通过特征点统计方法对特征点的分布进行统计，从而统计出各个类别的样本的特征点分布情况；S62，将目标所在的各区域进行归一化处理；S63，分类：对归一化处理后的各区域的图像，通过边缘快速提取算法进行处理得到边缘和特征点的分布情况，再通过特征点统计方法对特征点分布进行统计，将统计后的结果与步骤S61中训练获得的各个类别的样本的统计结果进行比较，从而识别出目标所属的类别信息。