[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109522938A - 一种基于深度学习的图像中目标的识别方法 - Google Patents

一种基于深度学习的图像中目标的识别方法 Download PDF

Info

Publication number
CN109522938A
CN109522938A CN201811255139.5A CN201811255139A CN109522938A CN 109522938 A CN109522938 A CN 109522938A CN 201811255139 A CN201811255139 A CN 201811255139A CN 109522938 A CN109522938 A CN 109522938A
Authority
CN
China
Prior art keywords
relu
target
layers
value
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811255139.5A
Other languages
English (en)
Inventor
刘荣
余卫宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Feeyy Intelligent Technology Co ltd
South China University of Technology SCUT
Original Assignee
Guangzhou Feeyy Intelligent Technology Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Feeyy Intelligent Technology Co ltd, South China University of Technology SCUT filed Critical Guangzhou Feeyy Intelligent Technology Co ltd
Priority to CN201811255139.5A priority Critical patent/CN109522938A/zh
Publication of CN109522938A publication Critical patent/CN109522938A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的图像中目标的识别方法,步骤如下:输入一张图像,使用卷积神经网络进行候选区域的提取,对输出的候选区域进行过滤优化操作,同时对每个候选区域进行归一化处理,将候选区域输入卷积神经网络进行特征提取,使用训练好的分类回归网络进行目标图像的分类和定位和检测,最后对选取的目标区域进行边框回归操作以修正目标区域的位置。本方法采用卷积神经网络来对图像中可能包含目标的区域进行提取,减少了候选目标区的数量,同时对卷积神经网路的输出目标候选区域执行优化过滤操作,提高了算法的计算速度。另外,对目标检测的候选区域采用多样的长宽比例和区域大小,更贴近现实场景,提高了算法的鲁棒性。

Description

一种基于深度学习的图像中目标的识别方法
技术领域
本发明涉及图像处理和计算机视觉技术领域,具体涉及一种基于深度学习的图像中目标的识别方法。
背景技术
基于深度学习的图像中目标检测方法主要用于对图像中的物体目标进行识别,常见的检测任务分为三种:识别,定位,检测,分割。识别:主要对图像中的物体进行一个类别的划分。定位:顾名思义就是检测图像中的物体的大致位置,传统的方法是在使用矩形来框来表示图像中物体的大致位置。检测:不但要识别图像中包含哪些物体,还要识别出各物体的大致位置。分割包含语义分割和实例分割,主要解决图像中像素点和图像中目标或场景的关系。
图像中的目标检测方法中的一个重要环节就是图像的特征提取。传统的特征提取主要提取图像的HOG特征和Haar-like特征,同时其目标识别算法主要包含三步:用滑动窗口提取目标物体的候选区域,对候选区域进行特征提取,分类器进行分类识别。传统方法采用滑动窗口的形式会产生大量的冗余候选区域,具有计算量大,识别效率低等缺点,阻碍了目标检测领域发展很长一段时间。
随着深度学习的火热,目前大多数的图像中目标检测采用的是深度学习的方法来实现,深度学习可以自动的学习到图像中目标物体的特征,随着网络层数的加深,学习特征能力越强,除去了对很多候选区域的重复计算,提高了识别效率和计算速度。基于深度学习的目标识别算法大致分为两类。第一类主要基于目标区域检测路线,以R-CNN,SPPNet,Fast-RCNN,Faster-RCNN,FPN为发展路线,识别效率也越来越高,第二类为一体化检测算法只需要遍历图像一次即可,抛弃了以往的候选区域提取的概念,以YOLO,SSD,Retina-Net为代表,该类算法计算速度快,但有些场景下识别效率不高。第一类算法思想依然是目前主流方法,同时第二类算法展现出来的后续发展空间更加广泛。
图像中目标识别是计算机视觉一个重要的研究方向,同时在行人检测,交通检测,模式识别,军事,无人驾驶等领域都有着非常广泛的应用前景。但现实生活场景具有多样性,光照,环境等因素使物体在图像的展现差异很大,另方面,同类别的物体间有些相差也是巨大的,这给现实生活中的目标识别应用带来一定的挑战性。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于深度学习的图像中目标的识别方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于深度学习的图像中目标的识别方法,所述的识别方法包括下列步骤:
S1、从数据集中选取一系列包含特定目标的图像,组成数据图像集,所述的图像数据集分为测试数据集和训练数据集;
S2、从训练数据集中选择一张包含特定类别目标的RGB图像作为输入图像;
S3、将输入图像输入第一卷积神经网络进行候选区域提取,得到第一候选区;
S4、将候选区输入候选区域优化网络进行候选区的优化过滤操作,得到第二候选区;
S5、对第二候选区进行图像的归一化和过滤操作,得到第三候选区;
S6、将第三候选区使用第二卷积神经网络进行特征图的提取;
S7、对提取的特征图使用softmax函数得到每个类别对应的概率,选取最大概率的区域(region)作为目标区域并进行目标分类;
S8、对目标区域进行边框回归(box regression),修正目标区域定位。
进一步地,所述的步骤S3中用于提取候选区域的第一卷积神经网络结构从输入到输出依次为:卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、卷积层conv5、卷积层conv6、全连接层fc1、全连接层fc2。
进一步地,所述的第一卷积神经网络作为候选区域的生成网络会生成目标检测区域的四个修正参数:tx、ty、tw、th,其中,tx为横坐标的修正参数,ty为纵坐标的修正参数,tw为宽度修正参数,th为高度修正参数,利用修正参数得到目标检测区域的相应参数为:
x=watx+xa
y=haty+ya
w=waexp(tw)
h=haexp(th)
其中,x、y、w、h分别为目标检测区域的横坐标、纵坐标、宽度值、高度值,xa、ya、wa、ha为基准矩形对应的横坐标、纵坐标、宽度值、高度值。
进一步地,所述的第一卷积神经网络中使用的Relu激活函数,其中x为神经元的输入值,函数表达式如下:
进一步地,所述的第一卷积神经网络采用边框回归机制,对不同图像采用不同的长宽比例以及不同的图像大小。
进一步地,所述的步骤S4中的用于候选区进行优化过滤操作的候选区域优化过滤网络结构从输入到输出依次为:
池化层pooling、全连接层fc1、Relu层fc1_relu、全连接层fc2、Relu层fc2_relu、全连接层fc3、Relu层fc3_relu、全连接层fc4、Relu层fc4_relu、softmax层,其中,全连接层fc1、全连接层fc2、全连接层fc3、全连接层fc4均用于随机隐藏部分神经元的输出(dropout)防止发生过拟合。softmax层对全连接层fc4使用softmax函数处理,如果输出的置信度大于0.6则保留候选区,否则删除候选区。
进一步地,所述的步骤S6中的用于进行特征图提取的第二卷积神经网络结构从输入到输出依次为:
卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、Relu层conv4_relu、卷积层conv5、Relu层conv5_relu。
进一步地,所述的步骤S7中目标分类采用softmax函数,将神经元的输入映射到[0,1]区间的输出,求一个神经元的输出的softmax值为:
其中,Si为神经元输出的softmax值,M为分类的类别总数,全连接层对于类别为i的种类输出值为ai,e为欧拉常数。分母是对所有的类别求和,这样保证softmax函数对某个类别的预测概率在[0,1]区间。
进一步地,所述的步骤S8中对目标区域进行边框回归操作包括:平移和尺度缩放,假设原始窗口坐标为:Px、Py、Pw、Ph,依次表示原始窗口的横坐标、纵坐标、宽度值、高度值。变换后的预测值对应的坐标值为:采用变换为先平移操作后尺度缩放操作,
其中,平移变换:
其中,尺度缩放变换:
为预测值,dx(P)、dy(P)、dw(P)、dh(P)为修正参数,目标边框的真实值为:Gx、Gy、Gw、Gh,依次表示目标边框的横坐标、纵坐标、宽度值、高度值,故计算得到的真实平移尺度(tx,ty)和缩放尺度(tw,th)如下:
tx=(GX-PX)/Pw
ty=(Gy-Py)/Ph
其中tx、ty、th、tw分别代表横坐标、纵坐标、宽度值、高度值真实的平移尺度大小。构造预测值和真实值对应目标函数的损失函数,采用最小二乘法求解。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明基于深度学习的图像中目标识别方法中,采用卷积神经网络来对候选区域进行提名,屏蔽了传统的基于滑动窗口的候选区域选取机制,减少了候选区域数量,同时提高了候选区域的选取质量。并引入了边框回归机制和不同大小的基准矩形框,来对可能包含目标的候选区域提取,更贴近现实场景,大大提高了模型的识别能力和准确度。
(2)本发明基于深度学习的图像中目标识别方法中,采用候选区域过滤网络对候选区域生成网络产生的目标区域进行过滤优化。大大减少了目标候选区域的冗余计算量,提高了模型的计算速度和效率。
(3)本发明基于深度学习的图像中目标识别方法中,构造了神经网络产生的目标识别区域坐标和真实的目标区域坐标之间的损失函数,并采用最小二乘法求解的方式,减少了模型的误判率,提高了算法的检测定位精度。
附图说明
图1是本发明中使用的原始数据集中图像一;
图2是本发明中使用的原始数据集中图像二;
图3是候选区域生成网络产生的图像一中目标候选区域示意图;
图4是候选区域生成网络产生的图像二中目标候选区域示意图;
图5是候选区域优化网络优化之后的图像一中目标候选区域示意图;
图6是候选区域优化网络优化之后的图像二中目标候选区域示意图;
图7是本发明中公开的基于深度学习的图像中目标识别方法的流程图;
图8是本发明中卷积神经网络使用的Relu函数的曲线示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例如附图7所示,本实施例公开了一种基于深度学习的图像中目标的识别方法,包括下述步骤:
S1、从数据集中选取一系列包含特定目标的图像,组成数据图像集,所述的图像数据集分为测试数据集和训练数据集;
该步骤中采用的数据集为imagenet数据集,该imagenet数据集中图片种类和数量较大,该数据集有超过百万张图片,并对图片有明确的类别标注和物体位置的标注。便于提高深度学习模型的准确度。
S2、从训练数据集中选择一张包含特定类别目标的RGB图像作为输入图像;
该输入图像是采用imagenet标准训练数据集中的图像。
S3、将输入图像输入第一卷积神经网络进行候选区域提取,得到第一候选区;
该步骤S3中的提取候选区域的第一卷积神经网络结构从输入到输出依次为:卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、卷积层conv5、卷积层conv6、全连接层fc1、全连接层fc2;
第一卷积神经网络作为候选区域的生成网络会生成目标检测区域的四个修正参数:tx ty tw th。其中tx为横坐标的修正参数,ty为纵坐标的修正参数,tw为宽度修正参数,th为高度修正参数。利用修正参数得到目标检测区域的相应参数为:
x=watx+xa
y=haty+ya
w=waexp(tw)
h=haexp(th)
其中,x、y、w、h分别为目标检测区域的横坐标、纵坐标、宽度值、高度值。xa、ya、wa、ha为基准矩形对应的横坐标,纵坐标,宽度值,高度值。
第一卷积神经网络使用的Relu激活函数,其中x为神经元的输入值,函数表达式如下:
使用Relu函数作为激活函数让部分神经元的输出为零,使矩阵变稀疏,防止过拟合的发生,同时可以减少卷积过程中的计算量。函数表述式的示意图可见图8所示。
第一卷积神经网络采用边框回归机制,对不同图像采用不同的长宽比例以及不同的图像大小,本方法采用长宽比为:1:1、1:1.5、1.5:1等不同比例。图像大小采用不同128*128、256*256大小,更贴近现实场景中不同目标的大小和长宽比。
S4、将候选区输入候选区域优化网络进行候选区的优化过滤操作,得到第二候选区;
该步骤S4中的用于候选区进行优化过滤操作的候选区域优化过滤网络结构从输入到输出依次为:
池化层pooling、全连接层fc1、Relu层fc1_relu、全连接层fc2、Relu层fc2_relu、全连接层fc3、Relu层fc3_relu、全连接层fc4、Relu层fc4_relu、softmax层,其中,全连接层fc1、全连接层fc2、全连接层fc3、全连接层fc4随机隐藏部分神经元的输出(dropout)防止发生过拟合。softmax层对全连接层fc4使用softmax函数处理,如果输出的置信度大于0.6则保留候选区,否则删除候选区。
S5、对第二候选区进行图像的归一化和过滤操作,得到第三候选区;
本实施例中,步骤S5中图像归一化和过滤操作具体如下:将图像缩放到227*227像素点大小,同时对图像中的每个像素点除以256,使像素点大小落在[0,1]区间范围之类。
S6、将第三候选区使用第二卷积神经网络进行特征图的提取;
该步骤S6中的用于进行特征图提取的第二卷积神经网络结构从输入到输出依次为:
卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、Relu层conv4_relu、卷积层conv5、Relu层conv5_relu。
S7、对提取的特征图使用softmax函数得到每个类别对应的概率,选取最大概率的区域(region)作为目标区域并进行目标分类;
该步骤S7中的目标分类采用的是softmax函数。softmax函数可以用于多分类问题,将神经元的输入映射到[0,1]区间的输出,求一个神经元的输出的softmax值为:
其中,Si为神经元输出的softmax值,M为分类的类别总数,全连接层对于类别为i的种类输出值为ai,e为欧拉常数。分母是对所有的类别求和,这样保证softmax函数对某个类别的预测概率在[0,1]区间。
S8、对目标区域进行边框回归(box regression),修正目标区域定位。
该步骤S8中对目标区域进行边框回归(box regression)操作为:平移和尺度缩放,原始窗口坐标为:Px、Py、Pw、Ph,依次表示原始窗口的横坐标、纵坐标、宽度值、高度值。
变换后的预测值对应的坐标值为:采用变换为先平移后缩放。
其中,平移变换:
其中,尺度缩放变换:
为预测值,dx(P)、dy(P)、dw(P)、dh(P)为修正参数,目标边框的真实值为:Gx、Gy、Gw、Gh,依次表示目标边框的横坐标、纵坐标、宽度值、高度值。故计算得到的真实平移尺度(tx,ty)和缩放尺度(tw,th)如下:
tx=(GX-PX)/Pw
ty=(Gy-Py)/Ph
其中tx、ty、th、tw分别代表横坐标、纵坐标、宽度值、高度值真实的平移尺度大小。构造预测值和真实值对应目标函数的损失函数,采用最小二乘法求解。
综上所述,本方法摒弃了目标识别的传统方法使用滑动窗口的方式来对图像的目标候选区域(region proposal)进行提取,改用了卷积神经网络来对图像中可能包含目标的区域进行提取,减少了候选目标区的数量,同时对卷积神经网路的输出目标候选区域进一步执行了优化过滤操作,大大提高了算法的计算速度。同时对目标检测的候选区域采用多样的长宽比例和区域大小,更贴近现实场景,提高了算法的鲁棒性和计算速度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的图像中目标的识别方法,其特征在于,所述的识别方法包括下列步骤:
S1、从数据集中选取一系列包含特定目标的图像,组成数据图像集,所述的图像数据集分为测试数据集和训练数据集;
S2、从训练数据集中选择一张包含特定类别目标的RGB图像作为输入图像;
S3、将输入图像输入第一卷积神经网络进行候选区域提取,得到第一候选区;
S4、将候选区输入候选区域优化网络进行候选区的优化过滤操作,得到第二候选区;
S5、对第二候选区进行图像的归一化和过滤操作,得到第三候选区;
S6、将第三候选区使用第二卷积神经网络进行特征图的提取;
S7、对提取的特征图使用softmax函数得到每个类别对应的概率,选取最大概率的区域作为目标区域并进行目标分类;
S8、对目标区域进行边框回归,修正目标区域定位。
2.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的步骤S3中用于提取候选区域的第一卷积神经网络结构从输入到输出依次为:卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、卷积层conv5、卷积层conv6、全连接层fc1、全连接层fc2。
3.根据权利要求2所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的第一卷积神经网络作为候选区域的生成网络会生成目标检测区域的四个修正参数:tx、ty、tw、th,其中,tx为横坐标的修正参数,ty为纵坐标的修正参数,tw为宽度修正参数,th为高度修正参数,利用修正参数得到目标检测区域的相应参数为:
x=watx+xa
y=haty+ya
w=waexp(tw)
h=haexp(th)
其中,x、y、w、h分别为目标检测区域的横坐标、纵坐标、宽度值、高度值,xa、ya、wa、ha为基准矩形对应的横坐标、纵坐标、宽度值、高度值。
4.根据权利要求2所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的第一卷积神经网络中使用的Relu激活函数,其中x为神经元的输入值,函数表达式如下:
5.根据权利要求2所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的第一卷积神经网络采用边框回归机制,对不同图像采用不同的长宽比例以及不同的图像大小。
6.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的步骤S4中的用于候选区进行优化过滤操作的候选区域优化过滤网络结构从输入到输出依次为:
池化层pooling、全连接层fc1、Relu层fc1_relu、全连接层fc2、Relu层fc2_relu、全连接层fc3、Relu层fc3_relu、全连接层fc4、Relu层fc4_relu、softmax层,其中,全连接层fc1、全连接层fc2、全连接层fc3、全连接层fc4均用于随机隐藏部分神经元的输出防止发生过拟合,softmax层对全连接层fc4使用softmax函数处理,如果输出的置信度大于0.6则保留候选区,否则删除候选区。
7.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的步骤S6中的用于进行特征图提取的第二卷积神经网络结构从输入到输出依次为:
卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、Relu层conv4_relu、卷积层conv5、Relu层conv5_relu。
8.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的步骤S7中目标分类采用softmax函数,将神经元的输入映射到[0,1]区间的输出,求一个神经元的输出的softmax值为:
其中,Si为神经元输出的softmax值,M为分类的类别总数,全连接层对于类别为i的种类输出值为ai,e为欧拉常数,分母是对所有的类别求和。
9.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法,其特征在于,所述的步骤S8中对目标区域进行边框回归操作包括:平移和尺度缩放,假设原始窗口坐标为:Px、Py、Pw、Ph,依次表示原始窗口的横坐标、纵坐标、宽度值、高度值,变换后的预测值对应的坐标值为:采用变换为先平移操作后尺度缩放操作,
其中,平移变换:
其中,尺度缩放变换:
为预测值,dx(P)、dy(P)、dw(P)、dh(P)为修正参数,目标边框的真实值为:Gx、Gy、Gw、Gh,依次表示目标边框的横坐标、纵坐标、宽度值、高度值,故计算得到的真实平移尺度(tx,ty)和缩放尺度(tw,th)如下:
tx=(GX-PX)/Pw
ty=(Gy-Py)/Ph
其中tx、ty、th、tw分别代表横坐标、纵坐标、宽度值、高度值真实的平移尺度大小,构造预测值和真实值对应目标函数的损失函数,采用最小二乘法求解。
CN201811255139.5A 2018-10-26 2018-10-26 一种基于深度学习的图像中目标的识别方法 Pending CN109522938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811255139.5A CN109522938A (zh) 2018-10-26 2018-10-26 一种基于深度学习的图像中目标的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811255139.5A CN109522938A (zh) 2018-10-26 2018-10-26 一种基于深度学习的图像中目标的识别方法

Publications (1)

Publication Number Publication Date
CN109522938A true CN109522938A (zh) 2019-03-26

Family

ID=65773955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811255139.5A Pending CN109522938A (zh) 2018-10-26 2018-10-26 一种基于深度学习的图像中目标的识别方法

Country Status (1)

Country Link
CN (1) CN109522938A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188811A (zh) * 2019-05-23 2019-08-30 西北工业大学 基于赋范梯度特征与卷积神经网络的水下目标检测方法
CN110288020A (zh) * 2019-06-19 2019-09-27 清华大学 基于声波传播方程的双路耦合深度学习的目标分类方法
CN110490238A (zh) * 2019-08-06 2019-11-22 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN110956115A (zh) * 2019-11-26 2020-04-03 证通股份有限公司 场景识别方法及装置
CN111275040A (zh) * 2020-01-18 2020-06-12 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111414997A (zh) * 2020-03-27 2020-07-14 中国人民解放军空军工程大学 一种基于人工智能的用于战场目标识别的方法
CN111526286A (zh) * 2020-04-20 2020-08-11 苏州智感电子科技有限公司 控制电机运动的方法、系统及终端设备
CN112001448A (zh) * 2020-08-26 2020-11-27 大连信维科技有限公司 一种形状规则小物体检测方法
CN112417981A (zh) * 2020-10-28 2021-02-26 大连交通大学 基于改进FasterR-CNN的复杂战场环境目标高效识别方法
CN112699813A (zh) * 2020-12-31 2021-04-23 哈尔滨市科佳通用机电股份有限公司 一种基于改进mtcnn网络模型的多国车牌定位方法
CN113011417A (zh) * 2021-01-08 2021-06-22 湖南大学 基于交并比覆盖率损失与重定位策略的目标匹配方法
CN114758464A (zh) * 2022-06-15 2022-07-15 东莞先知大数据有限公司 一种基于充电桩监控视频的电瓶防盗方法、设备和存储介质
CN118015343A (zh) * 2024-01-18 2024-05-10 中移信息系统集成有限公司 一种图像过滤方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022232A (zh) * 2016-05-12 2016-10-12 成都新舟锐视科技有限公司 基于深度学习的车牌检测方法
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN107368845A (zh) * 2017-06-15 2017-11-21 华南理工大学 一种基于优化候选区域的Faster R‑CNN目标检测方法
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106022232A (zh) * 2016-05-12 2016-10-12 成都新舟锐视科技有限公司 基于深度学习的车牌检测方法
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN107368845A (zh) * 2017-06-15 2017-11-21 华南理工大学 一种基于优化候选区域的Faster R‑CNN目标检测方法
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
博客园: "目标检测算法之Faster R-CNN算法详解", 《博客园-HTTPS://WWW.CNBLOGS.COM/ZYLY/P/9247863.HTML》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188811A (zh) * 2019-05-23 2019-08-30 西北工业大学 基于赋范梯度特征与卷积神经网络的水下目标检测方法
CN110288020B (zh) * 2019-06-19 2021-05-14 清华大学 基于声波传播方程的双路耦合深度学习的目标分类方法
CN110288020A (zh) * 2019-06-19 2019-09-27 清华大学 基于声波传播方程的双路耦合深度学习的目标分类方法
CN110490238A (zh) * 2019-08-06 2019-11-22 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN110956115A (zh) * 2019-11-26 2020-04-03 证通股份有限公司 场景识别方法及装置
CN110956115B (zh) * 2019-11-26 2023-09-29 证通股份有限公司 场景识别方法及装置
CN111275040A (zh) * 2020-01-18 2020-06-12 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111275040B (zh) * 2020-01-18 2023-07-25 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
WO2021143865A1 (zh) * 2020-01-18 2021-07-22 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111414997A (zh) * 2020-03-27 2020-07-14 中国人民解放军空军工程大学 一种基于人工智能的用于战场目标识别的方法
CN111526286B (zh) * 2020-04-20 2021-11-02 苏州智感电子科技有限公司 控制电机运动的方法、系统及终端设备
CN111526286A (zh) * 2020-04-20 2020-08-11 苏州智感电子科技有限公司 控制电机运动的方法、系统及终端设备
CN112001448A (zh) * 2020-08-26 2020-11-27 大连信维科技有限公司 一种形状规则小物体检测方法
CN112417981A (zh) * 2020-10-28 2021-02-26 大连交通大学 基于改进FasterR-CNN的复杂战场环境目标高效识别方法
CN112417981B (zh) * 2020-10-28 2024-04-26 大连交通大学 基于改进FasterR-CNN的复杂战场环境目标高效识别方法
CN112699813A (zh) * 2020-12-31 2021-04-23 哈尔滨市科佳通用机电股份有限公司 一种基于改进mtcnn网络模型的多国车牌定位方法
CN113011417A (zh) * 2021-01-08 2021-06-22 湖南大学 基于交并比覆盖率损失与重定位策略的目标匹配方法
CN113011417B (zh) * 2021-01-08 2023-02-10 湖南大学 基于交并比覆盖率损失与重定位策略的目标匹配方法
CN114758464A (zh) * 2022-06-15 2022-07-15 东莞先知大数据有限公司 一种基于充电桩监控视频的电瓶防盗方法、设备和存储介质
CN118015343A (zh) * 2024-01-18 2024-05-10 中移信息系统集成有限公司 一种图像过滤方法、装置及电子设备
CN118015343B (zh) * 2024-01-18 2024-11-08 中移信息系统集成有限公司 一种图像过滤方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109522938A (zh) 一种基于深度学习的图像中目标的识别方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN113807187B (zh) 基于注意力特征融合的无人机视频多目标跟踪方法
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
CN111310773B (zh) 一种高效的卷积神经网络的车牌定位方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN108304873A (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109598268A (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN109670405B (zh) 一种基于深度学习的复杂背景行人检测方法
CN107808376B (zh) 一种基于深度学习的举手检测方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN112288008A (zh) 一种基于深度学习的马赛克多光谱图像伪装目标检测方法
CN109214403A (zh) 图像识别方法、装置及设备、可读介质
CN113689464B (zh) 一种基于孪生网络的自适应多层响应融合的目标跟踪方法
CN112699837A (zh) 一种基于深度学习的手势识别方法及设备
CN103955950B (zh) 一种利用关键点特征匹配的图像跟踪方法
CN111860297A (zh) 一种应用于室内固定空间的slam回环检测方法
CN114882222A (zh) 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN113361466A (zh) 一种基于多模态交叉指导学习的多光谱目标检测方法
CN114332163B (zh) 一种基于语义分割的高空抛物检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190326

RJ01 Rejection of invention patent application after publication