CN112232263A

CN112232263A - 一种基于深度学习的番茄识别方法

Info

Publication number: CN112232263A
Application number: CN202011169184.6A
Authority: CN
Inventors: 梁喜凤; 顾鹏程; 赵力勤; 余文胜; 孙立峰; 徐学珍; 谢文兵; 王永维
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-15
Anticipated expiration: 2040-10-28
Also published as: CN112232263B

Abstract

本发明公开了一种基于深度学习的番茄识别方法。首先采集自然条件下番茄的图像，对采集到的图像进行图像数据增强，增大数据样本，然后对所有的图像数据进行目标番茄的人工标注，图像数据分成训练集和验证集。将VGG网络框架去除所有池化层，改为残差网络，并且残差网络的卷积层使用空洞卷积。本发明通过在图像识别阶段引入空洞卷积层的方法，能够提高复杂环境下的番茄识别准确率，有助于提升番茄采摘机器人整机工作效率。

Description

一种基于深度学习的番茄识别方法

技术领域

本发明涉及一种关于番茄的识别方法，特别是一种基于深度学习的番茄识别方法。

背景技术

我国是世界最大的番茄生产和消费的国家，但是从事生产资料活动的劳动力缺乏严重，而且我国具有栈中的不符合国情的老龄化人口结构，番茄采摘机器人对减少生产成本，提高采摘效率都有重要的意义。识别和定位的准确性决定了番茄采摘机器人的工作效率。番茄果实的生长形态各有不同，果实之间存在重叠，番茄的叶片，枝干、光照强度不同等，都会对果实进行遮挡，研究自然条件下的番茄的识别和定位对提高采摘机器人效率具有重要意义。

自然环境下的番茄识别检测是利用计算机视觉技术进行复杂环境下目标番茄的识别，并将获得的位置信息传递给番茄采摘机器人的机械手臂，从而能够精确地进行后续的番茄采摘工作。

传统的温室环境下的番茄识别方法都是基于颜色或者是形状的特征信息进行提取分类，包括颜色的直方图，或者是阈值分割，基于支持向量机的分类器分类等，但是这些方法都没有考虑到自然复杂情况下的环境影响因素，难以满足实际的要求。

基于深度学习的卷积神经网络为物体识别提供了新的方法，基于深度学习的检测方法可以分为两类，一类是基于Region Proposal的R-CNN系算法，另一种是Yolo,SSD这类one-stage算法，仅仅使用一个CNN网络就直接预测不同目标的类别与位置。

通过SSD以及YOLO这类基于深度学习的算法可以有效的识别番茄，并且经过大量样本的学习训练之后，可以具有较强的迁移功能，能够对传统图像算法无法作用的复杂自然情况进行番茄识别。

综上所述，通过融合了空洞卷积的SSD网络，对自然环境下番茄识别提供新的方法。

发明内容

本发明的目的在于提出了一种融合了空洞卷积的SSD卷积神经网络提高复杂情况下番茄采摘机器人的目标识别率。提供了一种番茄识别定位的方法，用以解决在复杂环境下难以识别目标番茄的问题。

本发明采用的技术方案是：

一种基于深度学习的番茄识别方法，其步骤如下：

S1：用彩色相机采集室外自然光照下番茄的彩色图像，构建训练样本；

S2：将S1所采集的彩色图像进行数据增强，形成训练集；

S3：将S2中训练集内的每个样本中的番茄位置进行标注，得到包括真实框坐标参数的标注文件；

S4：对SSD网络架构进行改进，将VGG16网络中的5层最大池化层分别用空洞卷积层进行替代，且空洞卷积层设置为2倍下采样，另外将SSD网络中的FC6层和FC7层分别替换为空洞卷积层换，同时将conv8_2层和conv9_2层分别替换为空洞卷积层，得到改进后的SSD网络架构；

S5：利用所述训练集对改进后的SSD网络架构进行训练，使其能识别出所述彩色图像中的番茄位置；

S6：将待检测的彩色图像输入S5中训练完毕的SSD网络中，对得分大于阈值的边界框进行标注，框选区域则为检测到的番茄区域。

作为优选，所述S1中需采集多种复杂情况下的番茄图像，训练样本包括不同光照、角度、果实大小的变化，单个果实，多个果实，以及果实被番茄叶遮挡住的情况。

作为优选，所述的数据增强包括翻转、平移、裁剪、颜色抖动和噪声增强。

作为优选，所述的S3中，用工具箱Labelimg提供的标记文件对训练集中的番茄图片进行人工标注。

作为优选，所述S4中，分别用层数为2层、3层、6层、9层、14层的5层空洞卷积层进行2倍下采样来代替原VGG16网络中的5层最大池化层的下采样，形成4个残差块。

作为优选，所述S4中，用于替换FC6和FC7的两层空洞卷积层的卷积核大小都为3×3，填充设置为0，步长设置为1，卷积核的点的间隔数量为1，最终感受野大小为7×7。

作为优选，所述S4中，用于替换conv8_2层的空洞卷积层的卷积核大小为3×3，空洞率为2；用于替换conv9_2层的空洞卷积层的卷积核大小为3×3，空洞率为4。

作为优选，所述S5中，对改进后的SSD网络架构进行训练时需提前配置框架参数，设置检测种类为1，匹配的阈值为0.5，训练步数为20000。

本发明将SSD网络架构中的VGG网络框架去除所有池化层，改为残差网络，并且残差网络的卷积层使用空洞卷积。由于SSD算法中使用的低层特征图尺寸较大，高层特征图尺寸较小，利用下采样操作减小底层级特征图尺寸，而空洞卷积代替最大池化层，扩大了特征图的感受，使特征图元素获得更多有效全局信息。因此本发明通过在图像识别阶段引入空洞卷积层的方法，能够提高复杂环境下的番茄识别准确率，有助于提升番茄采摘机器人整机工作效率。

附图说明

图1为基于深度学习番茄识别的流程图。

图2为SSD网络框架的改进图。

图3为残差块网络图。

图4为一个实施例中的检测结果。

具体实施方式

下面结合附图和具体实例来对本发明进行进一步说明。

如图1所示，为本发明的一个较佳实施例中提供的一种基于深度学习的番茄识别方法的基本操作流程图，该方法中具体步骤如下：

步骤1、图像采集

用彩色相机采集室外自然光照下番茄的彩色图像，构建训练样本。在获取训练样本时，应当在自然光照条件下，尽量选择不同情况下的图像样本，以丰富样本类型。可选择一天中的不同时间，不同的光照程度，进行图像的采集，选择不同光照、角度、果实大小的变化，单个果实，多个果实，以及果实被番茄叶遮挡住等情况进行尽可能多的进行图像采集。

步骤2、图像数据增强

将步骤1中采集的彩色图像进行数据增强，形成训练集。数据增强是可以在不降低检测精度的情况下提高算法鲁棒性的方法，在自然光照下，收集到的番茄的图像数据往往样本过小，就采用包括水平翻转，平移，抖动，添加噪声的方法进行图像的数据增强。

步骤3、样本标注

将步骤2中所有增强过后的图像样本进行人工标注，标注包含感兴趣区域(即番茄位置)的4元组参数(Xmin,Ymin,Xmax,Ymax)，分别表示标注框的左上角坐标(Xmin,Ymax)和右下角坐标(Xmax,Ymin)，由此得到包括真实框坐标参数的标注文件。该标注文件用于评测模型精确度时根据输出框与标注框重合率大小判定匹配分数。本实施例中，通过工具箱Labelimg提供的标记文件对训练集中的番茄图片进行人工标注。

步骤4、改进的SSD网络架构构建

传统的SSD物体检测框架基于前馈神经网络，其结构参见现有技术中的论文LiuW,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C]//EuropeanConference on Computer Vision.Springer International Publishing,2016.此处不再赘述。

SSD框架使用全卷积层的VGG16作为基础网络直接用特征图预测多目标类别和外围框，但在本发明中需要对SSD网络架构进行改进，使得其能够准确识别图像中的番茄。本实施例中，SSD网络的基本结构不变，仅将其中的部分层替换为空洞卷积层，具体如下：

一方面，将VGG16网络中的5层最大池化层分别用空洞卷积层进行替代，且空洞卷积层设置为2倍下采样。另一方面，将SSD网络中的FC6层和FC7层分别替换为空洞卷积层换，同时将conv8_2层和conv9_2层分别替换为空洞卷积层。经过上述替换后，得到了改进后的SSD网络架构，该网络架构可参见图2所示。

上述空洞卷积层的具体参数可根据需要调整。本实施例中，用于替换VGG16网络中的5层最大池化层的空洞卷积层的层数依次为2层、3层、6层、9层、14层。由此在改进的SSD网络框架中，去除了5层最大池化层，用2，3，6，9，14层空洞卷积层进行2倍下采样代替原原VGG16网络中的5层最大池化层的下采样，形成具有4个残差块的深度残差网络，结构为“building block”降低需要进行计算的卷积参数。该残差网络结构可参见图3所示。

另外，用于替换FC6和FC7的两层空洞卷积层的卷积核大小都为3×3，填充设置为0，步长设置为1，卷积核的点的间隔数量设置为1，因此最终感受野大小为7×7。用于替换conv8_2层的空洞卷积层的卷积核大小为3×3，空洞率设置为2；用于替换conv9_2层的空洞卷积层的卷积核大小为3×3，空洞率设置为4。

本发明中采用结合空洞卷积的SSD网络，可不进行池化操作损失信息并且在相同的计算条件的情况下，加大感受野，让每个卷积输出都包含较大范围的信息。经过空洞卷积后得到的特征图尺寸计算方法如式：

其中，i为输入特征图尺寸大小；p为padding值大小；k为卷积核尺寸；d为膨胀因子，在相隔为d-l的元素上完成空洞卷积操作；s为步长。

在改进的SSD网络中，损失函数的形式与传统SSD网络基本类似。在多层特征图中产生固定大小的边界框集合和框中对象类别的置信度：

式中c是Softmax函数对每类别的置信度，N是匹配默认框的数量，权重项α通过交叉验证设置为1，x定义为默认框匹配值，l定义为预测框，g定义为真实标签值；L_conf定义为置信损失，L_loc定义为位置损失。

其中位置损失是预测框(l)和真实标签框(g)之间的平滑L1损失，如式(2)所示：

该公式中，pos定义为默认框；box定义为预测框中心坐标及其宽高；x_ij定义为第i个默认框与类别k的第j个真实标签框的匹配值。

本实施例中，SSD网络针对Conv4_3,FC7,Conv8_2,Conv9_2,Conv10_2和Conv11_2特征层的每一个单元按照不同的长宽比分别提取4或者是6个默认框，最终获取8732个默认框。

步骤5、模型训练

上述改进后的SSD网络架构构建完毕后，即可利用前述步骤得到的训练集以及标注文件对改进后的SSD网络架构进行训练，使其能识别出输入的彩色图像中的番茄位置。对网络进行训练时需提前配置框架参数，由于本实施例中仅需要检测番茄，因此可设置检测种类为1，匹配的阈值为0.5，训练步数为20000。

训练阶段使用公式(1)为预测框做坐标偏移的回归分析，测试阶段每一个默认框都和标注框进行重叠率匹配，并按照匹配分数从高到低排序。

由于SSD算法中使用的低层特征图尺寸较大，高层特征图尺寸较小，利用下采样操作减小底层级特征图尺寸，空洞卷积代替最大池化层，扩大了特征图的感受野，使特征图元素获得更多有效全局信息。

步骤6、番茄识别

将待检测的彩色图像输入训练完毕的SSD网络中，对得分大于阈值50％的边界框进行标注，框选区域则为检测到的番茄区域。本实施例中将测试集输入该网络模型，其检测结果明显优于传统的SSD网络模型，图4所示为其中一张图片中检测到的番茄边界框，可以看出总体上准确识别了番茄所处的位置。

由此可见，本发明中使用卷积层代替最大池化层进行下采样，能够保留更多特征信息，通过在主干网络中引入残差结构，实现前后层特征复用和融合，同时满足番茄果实特征提取的快速性和准确性。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于深度学习的番茄识别方法，其特征在于，步骤如下：

S2：将S1所采集的彩色图像进行数据增强，形成训练集；

2.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述S1中需采集多种复杂情况下的番茄图像，训练样本包括不同光照、角度、果实大小的变化，单个果实，多个果实，以及果实被番茄叶遮挡住的情况。

3.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述的数据增强包括翻转、平移、裁剪、颜色抖动和噪声增强。

4.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述的S3中，用工具箱Labelimg提供的标记文件对训练集中的番茄图片进行人工标注。

5.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述S4中，分别用层数为2层、3层、6层、9层、14层的5层空洞卷积层进行2倍下采样来代替原VGG16网络中的5层最大池化层的下采样，形成4个残差块。

6.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述S4中，用于替换FC6和FC7的两层空洞卷积层的卷积核大小都为3×3，填充设置为0，步长设置为1，卷积核的点的间隔数量为1，最终感受野大小为7×7。

7.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述S4中，用于替换conv8_2层的空洞卷积层的卷积核大小为3×3，空洞率为2；用于替换conv9_2层的空洞卷积层的卷积核大小为3×3，空洞率为4。

8.如权利要求1所述的一种基于深度学习的番茄识别方法，其特征在于，所述S5中，对改进后的SSD网络架构进行训练时需提前配置框架参数，设置检测种类为1，匹配的阈值为0.5，训练步数为20000。