[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111476219B - 智能家居环境中图像目标检测方法 - Google Patents

智能家居环境中图像目标检测方法 Download PDF

Info

Publication number
CN111476219B
CN111476219B CN202010489218.3A CN202010489218A CN111476219B CN 111476219 B CN111476219 B CN 111476219B CN 202010489218 A CN202010489218 A CN 202010489218A CN 111476219 B CN111476219 B CN 111476219B
Authority
CN
China
Prior art keywords
image
home environment
intelligent home
network
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010489218.3A
Other languages
English (en)
Other versions
CN111476219A (zh
Inventor
奚雪峰
段杰
崔志明
王金亮
夏炜
史庆伟
王坚
曾诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunshan Public Security Bureau
Suzhou University of Science and Technology
Original Assignee
Kunshan Public Security Bureau
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunshan Public Security Bureau, Suzhou University of Science and Technology filed Critical Kunshan Public Security Bureau
Priority to CN202010489218.3A priority Critical patent/CN111476219B/zh
Publication of CN111476219A publication Critical patent/CN111476219A/zh
Priority to PCT/CN2021/078415 priority patent/WO2021244079A1/zh
Application granted granted Critical
Publication of CN111476219B publication Critical patent/CN111476219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及智能家居环境中图像目标检测方法,通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据增强及扩充预处理操作,利用特征提取网络,引入空洞卷积,采用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,对其进行封装,对图像库和检测库中的图像进行k‑means聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取得到预测边框的四个坐标,对预测边框进行回归和分类计算,通过非极大值抑制输出检测结果。满足智能家居环境中目标检测要求。

Description

智能家居环境中图像目标检测方法
技术领域
本发明涉及一种智能家居环境中图像目标检测方法。
背景技术
目标检测是计算机视觉方面一个重要的技术,在汽车自动驾驶、智能机器人技术、智能安防等领域有着广泛的应用。经典的目标检测方法有Dalal于2005年提出的基于HOG特征的检测方法,Felzenswalb等人于2008年提出的可变行组件模型(Deformable PartModel,DPM)检测方法,该方法先利用梯度算子计算出目标物体的HOG特征并采用滑动窗口+SVM的方法进行分类,在目标检测方面表现良好。
近年来,随着计算性能的大幅提升,人工智能和神经网络迅猛发展,基于深度学习的各种计算机视觉处理方式得到广泛应用。卷积神经网络是计算机视觉和图像处理方面一个非常重要的模型,在图像分类、人脸识别、动作识别、图像分割、目标检测等方面具有广泛应用,并取得巨大成功。与传统的目标检测方法相比,深度神经网络提取特征能力强,检测精度和检测速度大幅提升。目前广泛使用的基于神经网络的目标检测方式主要分两类:一类是“二阶段检测器”,该类方法将目标检测分为两步,先确定候选框然后再对区域内的目标进行识别,该类方法检测精度相对较高,检测速度相对低,一般只能达到5fps,典型的网络有RCNN、FAST-RCNN、FASTER-RCNN等;另外一类是“一阶段检测器”,该类方法利用回归思想同时完成后选框的检测与识别,实现端到端的检测与识别,典型网络有YOLO、SSD等,该类方法检测速度极快,但检测精度相对较低。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种智能家居环境中图像目标检测方法。
本发明的目的通过以下技术方案来实现:
智能家居环境中图像目标检测方法,特点是:
首先通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,采用轻量化的网络进行特征提取,引入空洞卷积,利用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像通过k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取,得到预测边框的四个坐标,然后对预测边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
进一步地,上述的智能家居环境中图像目标检测方法,其中,包括以下步骤:
a)首先,数据的筛选、标签和预处理
从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;对生成的数据集进行数据预处理;
b)然后,利用特征提取网络进行特征提取并训练模型
采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;
c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;
d)最后,通过回归和分类计算输出目标检测的结果;
通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),训练过程中,总计训练40000~60000个batch,batch_size为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;
采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:
其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:
1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy),对应的边界框宽和高为pw,ph,对应的预测关系如下:
bx=σ(tx)+cx,by=δ(ty)+cy
bw=pwetw,bh=pheth
其中,tx,ty为网络预测值,σ为sigmoid函数,tw,th为坐标,pw,ph为Cell对应的边界框的宽高;
每个网格预测物体在预测框中的概率Pr(Object),通过如下公式进行打分:
其中,为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法,用于智能家居图像的目标检测,通过轻量化的神经网络,以减少神经网络的层数,减少计算量;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现;
②数据的筛选更有针对性,筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据可达到网络训练的泛化性和鲁棒性要求;数据的增强和扩充不在使用单个的数据增强方式,而是通过随机种子,以一定的概率融合多种数据增强方式,形成新的数据增强方式,进一步增加数据的泛化性和鲁棒性;
③引入空洞卷积,代替传统的神经网络的卷积和池化操作,通过模拟人类视觉中的不同感受野结构,使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系,改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节的问题,提高模型对小物体的目标检测的能力。
④引入C.Relu激活函数,允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,可以在卷积之后同时保存正的和负的线性响应,减少传统激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;
⑤通过数据的筛选、标签和预处理,模型的迁移学习及特征提取网络的改进与二次训练,满足实际智能家居环境中目标检测的要求;网络设计具有一定的针对性,能够提升智能家居机器人目标检测的能力,为智能家居机器人的发展提供一定的动力,促进智能家居机器人的发展。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。
附图说明
图1:本发明的流程示意图;
图2:空洞卷积模块示意图;
图3:特征提取网络结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明具体实施方案。
如图1所示,智能家居环境中图像目标检测方法,首先通过ImageNet数据进行模型预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,保证每类增强数据的平衡性,将模型的特征提取网络进行替换,用更加轻量化的网络进行代替,并且采用空洞代替传统神经网络的卷积与池化层,采用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;之后,保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像进行k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用替换后的特征提取网络进行特征的提取得到预测边框的四个坐标,然后对每一个边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
具体包括以下步骤:
a)首先,数据的筛选、打标签和预处理;
家居数据没有现成的大规模的数据集,需要从海量的图像库中筛选出一些符合智能家居环境的图像;从10万多张图像中筛选出8000张图像,每张图像均为手工拍摄;不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集包含信息丰富,可达到网络训练的泛化性和鲁棒性要求;数据集包含23个类别,涵盖常见的家居环境中所有类别;
对筛选好的数据集用labellmg进行标签的制作,对于标注后的图像会生成与其相对应的xml文件,每个xml文件记录图像名称,标注的对象类别及其对应的像素坐标等信息;采用随机种子,以一定的概率对旋转、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变等数据增强方式进行随机组合,对数据进行增强及扩充操作,最终经过增强和扩充后的数据集达到12000张;
b)然后,替换模型的特征提取网络并训练模型;
引入空洞卷积,如图2所示,(a)和(b)分别代表两种不同的空洞卷积模块,通过1*1、3*3、5*5等卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;(a)和(b)代表不同的模拟结构,两者的差别在于是否用更小的卷积核替换大卷积核,以减少计算量;传统的卷积和池化方式因池化操作损失一些信息,而空洞卷积在保持卷积核大小参数不变的同时,增大卷积的视野,提取更多的全局信息,增强对小物体信息的提取能力。
利用VGG16作为特征提取网络,VGG16是一种流水线形特征提取网络,原始的VGG16是一连串级联的卷积层,形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节;模型保留与VGG16相同的级联结构,在具有相对大分辨率的特征层,采用RFB-s模块代替传统的卷积池化层,针对相对小分辨率的特征层,采用RFB代替卷积池化层;将第一、二、三层用RFB-s模块代替,第四层和第五层用RFB代替;第一个融合层用RFB-s代替,第二、三融合层用RFB代替;此外,灵活设置膨胀率和标准卷积核的大小模拟人眼的感受野和偏心率之间的关系;用RFB和RFB-s模块来减少网络参数,减少计算量;使网络更加轻量化,且对于小物体特征的提取能力有所提升;
由于卷积核学习到的参数分布具有很强的正负相关性,在卷积神经网络中,采用Relu激活函数,Relu将负值清零并产生稀疏激活,所以需要学习两个线性相关的正相位和反相位的参数,对冗余参数的学习无形中增加了网络的计算消耗;引入C.Relu(Concatenated Rectified Linear Units)函数,其基本原理是允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性;因此,可以在卷积之后同时保存正的和负的线性响应,减少Relu激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;C.Relu的函数表达式为
在特征提取网络的低卷积层中,采用C.Relu进行非线性话处理,C.Relu在卷积神经网络中的实现过程为:将卷积得到的特征直接取反,再与原卷积特征相连,然后经过一次Relu激活函数即可;
训练过程中,采用ImageNet预训练好的参数,用改进后的模型进行训练,总计训练了60000个batch,batch_size为8;使用Adam进行优化,训练过程中不需要池化操作;
采用指数衰减学习率,即学习率回根据训练下降的速度自行调节变化,防止产生震荡,加快收敛速度;指数衰减学习率的公式为:
其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数(一般在0~1之间),globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
c)继而,对图像库和目标检测库中的图像进行k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续编大小将基于9个先验框进行微调;
对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将这些特征图划分为网格区域,在每个网格上预测三个边界框,一共产生1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数;
d)最后,通过回归和分类计算输出目标检测的结果;
通过改进后的神经网络进行特征提取得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy)并且它对应的边界框宽和高为pw,ph,对应的预测关系如下
bx=σ(tx)+cx,by=δ(ty)+cy
bw=pwetw,bh=pheth
每个网格还预测物体在预测框中的概率Pr(Object),并且通过如下公式进行打分:
其中,为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0;预测框最终通过非极大值抑制得出最后的结果。
结合四种主流的评估指标,对原模型和本发明的表现进行评估,四个评价指标分别为召回率、精准率、平均精度均值和Frame;与原模型相比,本发明精准率提高到72.84%,提高4.71个百分点;召回率提高到73.4%,提高2.2个百分点;在平均精度均值和检测速度方面分别提升了1.2%和27FPS;并且,本发明对小物体检测精度有所提高。
本发明采用更浅、更轻量化的网络进行特征的提取,引入空洞卷积,用于家居图像特征的提取,通过引入C.Relu函数进一步进行优化,减少计算量;可以获得良好且更加快速的家居目标检测方式;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现。
综上所述,本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法,用于智能家居图像的目标检测,通过轻量化的神经网络,以减少神经网络的层数,减少计算量;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现;
数据的筛选更有针对性,筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据可保证网络训练的泛化性和鲁棒性要求;数据的增强和扩充不在使用单个的数据增强方式,而是通过随机种子,以一定的概率融合多种数据增强方式,形成新的数据增强方式,进一步增加数据的泛化性和鲁棒性;
引入空洞卷积,通过模拟人类视觉中的不同感受野结构,使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系,改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节的问题,提高模型对小物体的目标检测的能力。
引入C.Relu激活函数,允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,可以在卷积之后同时保存正的和负的线性响应,减少传统激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;
通过数据的筛选、标签和预处理,模型的迁移学习及特征提取网络的改进与二次训练,满足实际智能家居环境中目标检测的要求;网络设计具有一定的针对性,能够提升智能家居机器人目标检测的能力,为智能家居机器人的发展提供一定的动力,促进智能家居机器人的发展。
需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。

Claims (8)

1.一种智能家居环境中图像目标检测方法,其特征在于:包括以下步骤:
a)首先,数据的筛选、标签和预处理
从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作;
b)然后,利用特征提取网络进行特征提取并训练模型
采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;
c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;
d)最后,通过回归和分类计算输出目标检测的结果;
通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果;
步骤b),训练过程中,总计训练40000~60000个batch,batch_size为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;
采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:
其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
2.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。
3.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。
4.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。
5.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。
6.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。
7.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:
1×(3×(13×13+26+26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数。
8.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy),对应的边界框宽和高为pw,ph,对应的预测关系如下:
bx=σ(tx)+cx,by=δ(ty)+cy
bw=pwetw,bh=pheth
其中,tx,ty为网络预测值,σ为sigmoid函数,tw,th为坐标,pw,ph为Cell对应的边界框的宽高;
每个网格预测物体在预测框中的概率Pr(Object),通过如下公式进行打分:
其中,为预测框和ground truth的交并比,conf(Obkect)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。
CN202010489218.3A 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法 Active CN111476219B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010489218.3A CN111476219B (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法
PCT/CN2021/078415 WO2021244079A1 (zh) 2020-06-02 2021-03-01 智能家居环境中图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010489218.3A CN111476219B (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法

Publications (2)

Publication Number Publication Date
CN111476219A CN111476219A (zh) 2020-07-31
CN111476219B true CN111476219B (zh) 2024-09-17

Family

ID=71763646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010489218.3A Active CN111476219B (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法

Country Status (2)

Country Link
CN (1) CN111476219B (zh)
WO (1) WO2021244079A1 (zh)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476219B (zh) * 2020-06-02 2024-09-17 苏州科技大学 智能家居环境中图像目标检测方法
CN111738231B (zh) * 2020-08-06 2020-12-11 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN112597801B (zh) * 2020-11-24 2023-08-01 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112598043B (zh) * 2020-12-17 2023-08-18 杭州电子科技大学 一种基于弱监督学习的协同显著性检测方法
CN113221761B (zh) * 2021-05-17 2023-09-05 深圳大学 基于集成式Yolo网络的iPSCs群落检测方法、存储介质及装置
CN113283428B (zh) * 2021-07-20 2021-10-08 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置
CN114332583B (zh) * 2021-12-10 2024-08-13 北京航空航天大学 基于改进yolov3的室内目标检测方法
CN114241308B (zh) * 2021-12-17 2023-08-04 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114241422B (zh) * 2021-12-23 2024-11-01 长春大学 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN114283137B (zh) * 2021-12-24 2024-11-01 河北工业大学 基于多尺度特征图推理网络的光伏组件热斑缺陷检测方法
CN114494151B (zh) * 2021-12-30 2024-10-22 山东师范大学 一种复杂果园环境下的果实检测方法及系统
CN114330460B (zh) * 2022-01-12 2023-05-30 齐鲁工业大学 一种基于灵巧手触觉的物体属性识别方法
CN114462514B (zh) * 2022-01-19 2024-10-22 青岛理工大学 一种基于边缘提取与空洞卷积的抓取目标检测算法
CN114862751B (zh) * 2022-01-21 2024-03-22 西北工业大学 一种用于快速识别全息图像中铝燃烧颗粒的目标检测方法
CN114511644B (zh) * 2022-01-21 2023-06-09 电子科技大学 一种基于深度学习的自适应数字伪装方法
CN114492625A (zh) * 2022-01-23 2022-05-13 北京工业大学 基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案
CN114120077B (zh) * 2022-01-27 2022-05-03 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114445689B (zh) * 2022-01-29 2024-07-26 福州大学 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114627052A (zh) * 2022-02-08 2022-06-14 南京邮电大学 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN114445198B (zh) * 2022-02-15 2024-10-29 南京邮电大学 一种基于压缩与激励网络的商品分类方法
CN114782735B (zh) * 2022-02-22 2024-04-26 北京航空航天大学杭州创新研究院 一种基于多区域数据增强的菜品识别方法
CN114549507B (zh) * 2022-03-01 2024-05-24 浙江理工大学 改进Scaled-YOLOv4的织物瑕疵检测方法
CN114612406B (zh) * 2022-03-03 2024-08-23 南京理工大学 一种基于可见光和红外视觉的光伏板缺陷检测方法
CN114693605B (zh) * 2022-03-07 2024-10-18 宁夏交投科技发展有限公司 一种基于deepstream的道路裂缝检测方法
CN114694091B (zh) * 2022-03-09 2024-06-14 东南大学 一种复杂交通环境下基于监控视频的交通参与者检测方法
CN114724179B (zh) * 2022-03-10 2024-04-30 大连海洋大学 一种基于深度学习的水下扇贝识别方法
CN114694002B (zh) * 2022-03-11 2024-11-01 中国电子科技集团公司第五十四研究所 一种基于特征融合与注意力机制的红外目标检测方法
CN114898327B (zh) * 2022-03-15 2024-04-26 武汉理工大学 一种基于轻量化深度学习网络的车辆检测方法
CN114612883A (zh) * 2022-03-17 2022-06-10 重庆大学 一种基于级联ssd和单目深度估计的前向车辆距离检测方法
CN114708531B (zh) * 2022-03-18 2024-07-16 南京大学 电梯内异常行为检测方法、装置及存储介质
CN114708347B (zh) * 2022-03-22 2024-09-17 江门市中心医院 一种基于自适应选择的双源域异构迁移学习的肺结节ct图像分类方法
CN114926629B (zh) * 2022-03-31 2024-03-22 北京工业大学 一种基于轻量化卷积神经网络的红外船目标显著性检测方法
CN114663769B (zh) * 2022-04-07 2023-04-18 杭州电子科技大学 一种基于YOLO v5的水果识别方法
CN114708554A (zh) * 2022-04-12 2022-07-05 南京邮电大学 一种基于人脸检测的智慧图书馆人流量监测方法及装置
CN114494890B (zh) * 2022-04-14 2022-08-23 广州市玄武无线科技股份有限公司 一种模型训练方法、商品图像管理方法及装置
CN114694017B (zh) * 2022-04-18 2024-08-20 上海海洋大学 一种轻量级水下目标检测方法、系统、介质、设备及终端
CN114782355B (zh) * 2022-04-18 2024-05-14 华南理工大学 基于改进vgg16网络的胃癌数字病理切片检测方法
CN114972525B (zh) * 2022-04-21 2024-05-14 浙江理工大学 一种面向机器人抓取及增强现实的空间目标姿态估计方法
CN114821315B (zh) * 2022-04-24 2024-06-07 福州大学 结合边缘检测和多任务学习的遥感影像耕地地块提取方法
CN114782814A (zh) * 2022-04-24 2022-07-22 清华苏州环境创新研究院 一种基于机器视觉的环境污染源识别方法和装置
CN114913428A (zh) * 2022-04-26 2022-08-16 哈尔滨理工大学 一种基于深度学习的遥感图像目标检测系统
CN114998382A (zh) * 2022-04-26 2022-09-02 重庆邮电大学 一种基于掩膜信息的在线更新目标跟踪方法
CN114882556B (zh) * 2022-04-26 2024-03-15 西北大学 一种基于改进的YoloX的戏曲角色妆容脸部检测方法
CN114973122A (zh) * 2022-04-29 2022-08-30 韶关学院 基于改进YOLOv5的安全帽佩戴检测方法
CN114998210B (zh) * 2022-04-29 2024-05-07 华南理工大学 一种基于深度学习目标检测的早产儿视网膜病变检测系统
CN114998702B (zh) * 2022-04-29 2024-08-02 海南大学 基于BlendMask的实体识别、知识图谱生成方法及系统
CN114821368B (zh) * 2022-05-05 2024-03-01 合肥工业大学 一种基于强化学习和Transformer的电力缺陷检测方法
CN114821433B (zh) * 2022-05-05 2024-04-12 南京智慧水运科技有限公司 一种基于目标检测信度动态融合的目标识别方法
CN114972208B (zh) * 2022-05-05 2024-04-09 扬州大学 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN114937151B (zh) * 2022-05-06 2024-08-23 西安电子科技大学 基于多感受野和注意力特征金字塔的轻量级目标检测方法
CN114973032B (zh) * 2022-05-27 2024-06-18 沈阳农业大学 一种基于深度卷积神经网络的光伏板热斑检测方法及装置
CN114972869B (zh) * 2022-05-30 2024-02-20 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN114973390B (zh) * 2022-05-30 2024-03-12 西北工业大学 结合眼动注意力机制的复杂背景红外微弱目标检测方法
CN115147642B (zh) * 2022-06-02 2024-10-11 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN114842208B (zh) * 2022-06-08 2024-05-03 南昌大学 一种基于深度学习的电网危害鸟种目标检测方法
CN114998688B (zh) * 2022-06-20 2024-09-13 中国科学院长春光学精密机械与物理研究所 一种基于YOLOv4改进算法的大视场目标检测方法
CN115221207B (zh) * 2022-06-21 2023-04-11 广州极点三维信息科技有限公司 一种智能家居方案设计方法、系统、装置及存储介质
CN115063777B (zh) * 2022-06-27 2024-06-04 厦门大学 一种野外环境下的无人车障碍物识别方法
CN115100495B (zh) * 2022-07-08 2024-07-26 福州大学 基于子特征融合的轻量化安全帽检测方法
CN115220361B (zh) * 2022-08-02 2024-07-19 福州大学 基于深度学习的智能家居服务管控方法
CN115631326B (zh) * 2022-08-15 2023-10-31 无锡东如科技有限公司 一种智能机器人的知识驱动3d视觉检测方法
CN115169504B (zh) * 2022-09-06 2022-11-25 山东洲蓝环保科技有限公司 一种煤气精脱硫工艺中的设备异常识别方法
CN115376108A (zh) * 2022-09-07 2022-11-22 南京邮电大学 一种复杂天气下障碍物检测方法及装置
CN115482227B (zh) * 2022-09-26 2023-09-12 中机生产力促进中心有限公司 机器视觉自适应成像环境调整方法
CN115546555B (zh) * 2022-10-18 2024-05-03 安徽大学 一种基于混合表征学习增强的轻量化sar目标检测方法
CN115775236B (zh) * 2022-11-24 2023-07-14 广东工业大学 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统
CN116342985B (zh) * 2023-02-14 2023-09-12 中南大学 一种用于动态智能货柜的鲁棒性特征学习方法
CN116309465B (zh) * 2023-03-21 2024-02-13 湖南中医药大学 一种基于改进的YOLOv5的自然环境下舌像检测定位方法
CN116245557B (zh) * 2023-03-28 2023-09-19 啄木鸟房屋科技发展(广东)股份有限公司 一种用于分析住户体验的数据处理方法及装置
CN116681962A (zh) * 2023-05-05 2023-09-01 江苏宏源电气有限责任公司 基于改进YOLOv5的电力设备热图像检测方法及系统
CN116580285B (zh) * 2023-07-14 2023-09-22 西安益迪惟科智能科技有限责任公司 铁路绝缘子夜间目标识别检测方法
CN116611503B (zh) * 2023-07-21 2023-09-22 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN116977931A (zh) * 2023-07-31 2023-10-31 深圳市星河智善科技有限公司 一种基于深度学习的高空抛物识别方法
CN116863252B (zh) * 2023-09-04 2023-11-21 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117333539A (zh) * 2023-10-09 2024-01-02 南京华麦机器人技术有限公司 一种面向移动机器人的充电桩定位方法及装置
CN117334162B (zh) * 2023-10-11 2024-05-10 深圳市穗晶光电股份有限公司 Led背光源控制系统及其方法
CN117611877B (zh) * 2023-10-30 2024-05-14 西安电子科技大学 基于ls-yolo网络的遥感影像滑坡体检测方法
CN117152422B (zh) * 2023-10-31 2024-02-13 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备
CN117589065B (zh) * 2023-11-20 2024-09-20 河北工程大学 一种针对异形轴接口尺寸的检测方法
CN117527399B (zh) * 2023-11-28 2024-05-17 广州视声智能股份有限公司 用于智能家居的信息安全加密方法及系统
CN117315446B (zh) * 2023-11-29 2024-02-09 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种面向复杂环境下水库溢洪道异常智能识别方法
CN117350926B (zh) * 2023-12-04 2024-02-13 北京航空航天大学合肥创新研究院 一种基于目标权重的多模态数据增强方法
CN117351022B (zh) * 2023-12-06 2024-03-08 长沙能川信息科技有限公司 一种基于复杂环境下的输电线路绝缘子缺陷检测方法
CN117590761B (zh) * 2023-12-29 2024-04-19 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统
CN118019188A (zh) * 2024-01-30 2024-05-10 深圳联恒智控科技有限公司 一种基于智能射灯的人体行为识别方法和系统
CN117689020B (zh) * 2024-02-04 2024-05-24 青岛海尔科技有限公司 基于大模型构建智能家居本体的方法及装置、电子设备
CN118172736A (zh) * 2024-02-07 2024-06-11 北京交通大学 一种用于智能交通的实时检测方法及装置
CN117894319B (zh) * 2024-03-14 2024-05-17 南京土星信息科技有限公司 基于机器学习数据生成的小样本声纹识别模型训练方法
CN118212588B (zh) * 2024-04-08 2024-09-06 广州新华学院 一种基于改进YOLOv8轻量化目标学习检测方法
CN118172714B (zh) * 2024-05-15 2024-07-30 中国石油大学(华东) 油田井下作业环境下的多尺度施工装备鲁棒性识别方法
CN118298513B (zh) * 2024-06-05 2024-08-13 华东交通大学 一种基于机器视觉的电力作业违规行为检测方法及系统
CN118537543B (zh) * 2024-07-22 2024-10-18 杭州未来已来科技有限公司 一种基于yolo的图像信息目标检测方法及系统
CN118552929A (zh) * 2024-07-29 2024-08-27 南昌大学 一种基于改进YOLOv8n的交通目标检测方法及系统
CN118552798B (zh) * 2024-07-30 2024-10-18 绍兴建元电力集团有限公司 一种多尺度中心环绕抑制的红外光伏热斑检测方法
CN118552840B (zh) * 2024-07-30 2024-09-24 中国石油大学(华东) 基于事件特征引导的用于水下透明目标预测的神经网络

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
US10373320B2 (en) * 2017-03-17 2019-08-06 Uurmi Systems PVT, LTD Method for detecting moving objects in a video having non-stationary background
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法
CN110796037B (zh) * 2019-10-15 2022-03-15 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN110956119B (zh) * 2019-11-26 2023-05-26 大连理工大学 一种图像中目标检测的方法
CN110751134B (zh) * 2019-12-23 2020-05-12 长沙智能驾驶研究院有限公司 目标检测方法、装置、存储介质及计算机设备
CN111476219B (zh) * 2020-06-02 2024-09-17 苏州科技大学 智能家居环境中图像目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法

Also Published As

Publication number Publication date
CN111476219A (zh) 2020-07-31
WO2021244079A1 (zh) 2021-12-09

Similar Documents

Publication Publication Date Title
CN111476219B (zh) 智能家居环境中图像目标检测方法
CN111310861B (zh) 一种基于深度神经网络的车牌识别和定位方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN110111335B (zh) 一种自适应对抗学习的城市交通场景语义分割方法及系统
CN112949673B (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN111291809B (zh) 一种处理装置、方法及存储介质
WO2021051987A1 (zh) 神经网络模型训练的方法和装置
CN110533022B (zh) 一种目标检测方法、系统、装置及存储介质
CN113449573A (zh) 一种动态手势识别方法及设备
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN112884742A (zh) 一种基于多算法融合的多目标实时检测、识别及跟踪方法
CN117788957B (zh) 一种基于深度学习的资质图像分类方法及系统
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN118096922A (zh) 一种基于风格迁移和遥感影像生成地图的方法
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN116246147A (zh) 基于跨层特征融合和线性注意力优化的跨物种目标检测方法
CN113553936A (zh) 一种基于改进型YOLOv3的口罩佩戴检测方法
CN114724245A (zh) 基于csi的增量学习人体动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant