CN110956115B - 场景识别方法及装置 - Google Patents
场景识别方法及装置 Download PDFInfo
- Publication number
- CN110956115B CN110956115B CN201911172445.7A CN201911172445A CN110956115B CN 110956115 B CN110956115 B CN 110956115B CN 201911172445 A CN201911172445 A CN 201911172445A CN 110956115 B CN110956115 B CN 110956115B
- Authority
- CN
- China
- Prior art keywords
- neural network
- sample
- scene
- convolutional neural
- scene image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种场景识别方法,其包括:获取场景图像;利用卷积神经网络从场景图像提取候选区域;基于候选区域确定目标区域;以及从目标区域识别场景中的标志或标语;其中,标志或标语指示场景所在的机构或公司。该方法能够准确地确定场景所在的机构、公司或营业厅。
Description
技术领域
本发明涉及图像识别技术领域,更具体地说,涉及一种场景识别方法及装置。
背景技术
给定场景的一副图片,人类或者机器人可以判断出这副图片是否来自之前见到的场景,这就是视觉场景识别要解决的问题。视觉场景识别在移动机器人,自动驾驶等领域都有广泛的应用。
现有技术中,识别方法往往针对于大尺寸的图片信息,其对应的场景图像包括场景的装修风格、陈设等整体特征,但这些场景(例如营业厅)陈设往往没有显著的特点,甚至彼此类似,这使得难以准确判别场景所在地,因此图像识别方法效果并不理想。
此外,在从候选区域确定目标区域时缺乏明确的筛选标准,关于目标区域应包括何种类型的图像特征不具有公论,从而如何准确识别并区分场景仍旧是一个难题。
发明内容
本发明的目的在于提供一种场景识别方法。
根据本发明的一个方面,提供一种场景识别方法,其包括:获取场景图像;利用卷积神经网络从场景图像提取候选区域;基于候选区域确定目标区域;以及从目标区域识别场景中的标志或标语;其中,标志或标语指示场景所在的机构或公司。
可选地,利用卷积神经网络从场景图像提取候选区域包括:基于场景图像生成至少一个卷积特征图;针对各卷积特征图:将卷积特征图输入卷积神经网络,以得到至少一个候选区域的坐标、以及各候选区域中存在标志或标语的概率。
可选地,基于候选区域确定目标区域包括:对各候选区域进行阈值过滤和/或非极大值抑制筛选。
可选地,基于候选区域确定目标区域包括:将候选区域对应的卷积特征图输入卷积神经网络,以得到候选区域的坐标修正量;基于坐标修正量确定目标区域。
可选地,从目标区域识别场景的标志或标语包括:将目标区域对应的场景图像输入卷积神经网络,以识别标志或标语。
可选地,该方法还包括训练卷积神经网络,其中训练卷积神经网络包括:提供包括标志或标语的样本场景图像;对各样本场景图像:基于样本场景图像生成至少一个样本卷积特征图;对各样本卷积特征图:将样本卷积特征图划分为多个格子;对每个格子:预测至少一个样本标记框;确定各样本标记框的置信度;以及确定样本标记框类别的概率。
可选地,训练卷积神经网络还包括:确定卷积神经网络的损失函数;对损失函数求解以确定卷积神经网络的至少一个参数。
可选地,损失函数求解包括:利用自适应矩估计优化器来求解损失函数。
根据本发明另一方面,提供一种场景识别装置,其包括场景图像获取单元、目标确定单元和目标识别单元,其中:场景图像获取单元配置成获取场景图像;目标确定单元配置成:利用卷积神经网络从场景图像提取候选区域;基于候选区域确定目标区域;目标识别单元配置成从目标区域识别场景中的标志或标语;其中,标志或标语指示场景所在的机构或公司。
可选地,目标确定单元配置成:基于场景图像生成至少一个卷积特征图;针对各卷积特征图:将卷积特征图输入卷积神经网络,以得到至少一个候选区域的坐标、以及各候选区域中存在标志或标语的概率。
可选地,目标确定单元配置成对各候选区域进行阈值过滤和/或非极大值抑制筛选。
可选地,目标确定单元配置成将候选区域对应的卷积特征图输入卷积神经网络,以得到候选区域的坐标修正量;基于坐标修正量确定目标区域。
可选地,目标识别单元配置成将目标区域对应的场景图像输入卷积神经网络,以识别标志或标语。
可选地,目标确定单元进一步配置成训练卷积神经网络,其中训练卷积神经网络包括:提供包括标志或标语的样本场景图像;对各样本场景图像:基于样本场景图像生成至少一个样本卷积特征图;对各样本卷积特征图:将样本卷积特征图划分为多个格子;对每个格子:预测至少一个样本标记框;确定各样本标记框的置信度;以及确定样本标记框类别的概率。
可选地,在训练卷积神经网络时,目标确定单元进一步配置成:确定卷积神经网络的损失函数;对损失函数求解以确定卷积神经网络的至少一个参数。
可选地,在训练卷积神经网络时,目标确定单元进一步配置成:利用自适应矩估计优化器来求解损失函数。
本发明提供的场景识别方法,利用卷积神经网络从场景图像提取候选区域并确定目标区域,卷积神经网络的参数设置成使得其对场景图像中的标志或标语部分更为敏感,通过对标志或标语的识别,能够准确地确定场景所在的机构、公司或营业厅。
附图说明
图1示出本发明第一实施例提供的场景识别方法的流程示意图。
图2示出本发明第二实施例提供的场景识别装置的结构框图。
具体实施方式
在以下描述中提出具体细节,以便提供对本发明的透彻理解。然而,本领域的技术人员将清楚地知道,即使没有这些具体细节也可实施本发明的实施例。在本发明中,可进行具体的数字引用,例如“第一元件”、“第二装置”等。但是,具体数字引用不应当被理解为必须服从于其字面顺序,而是应被理解为“第一元件”与“第二元件”不同。
本发明所提出的具体细节只是示范性的,具体细节可以变化,但仍然落入本发明的精神和范围之内。术语“耦合”定义为表示直接连接到组件或者经由另一个组件而间接连接到组件。
以下通过参照附图来描述适于实现本发明的方法、系统和装置的优选实施例。虽然各实施例是针对元件的单个组合来描述,但是应理解,本发明包括所公开元件的所有可能组合。因此,如果一个实施例包括元件A、B和C,而第二实施例包括元件B和D,则本发明也应被认为包括A、B、C或D的其他剩余组合,即使没有明确公开。
本发明第一实施例提供一种场景识别方法,如图1所示,其包括步骤S10-S12-S14-S16。
步骤S10:获取场景图像。
在该步骤中,利用设置于待识别场景的摄像头捕获视频,对视频进行读取和解析,按照一定频率(例如每秒5帧)将视频中的帧提取出来、按序排好,形成场景图像。
步骤S12:利用卷积神经网络从场景图像提取候选区域。
在该步骤中,利用卷积神经网络(无论其训练完成与否)从场景图像中提取候选区域,在候选区域中可能存在场景中的标志或标语。但是候选区域中可能包括并不存在场景标志或标语的那些。
需要说明的是,本发明所称的“标志或标语”可指示场景所在的机构或公司的名称或标识。标志不仅包括文字标志,也包括图标标志,例如公司的商标或外观设计。不同机构或公司的陈设可能存在相似性,但是这种标志或标语应是截然不同的。对于同一机构或公司而言,无论时间、天气、照明因素存在何种差异,场景里的人或多或少,这种标志或标语都应是相同或相似的。因此,场景中的标志或标语能够用来确定机构、公司或营业厅。
具体来说,为了提取候选区域,首先基于场景图像生成多个卷积特征图。卷积特征图可与RGB三种像素图像对应,也可与所采用的不同的卷积核对应。不同的卷积特征图能够体现同一场景图像不同的特征维度。作为示例,对同一幅场景图像,将其按R、G、B三个通道进行卷积,生成卷积特征图,其中R像素卷积特征图包含所有R像素的卷积特征,G像素卷积特征图包含所有G像素的卷积特征,B像素卷积特征图类似。
在生成卷积特征图之后,针对各个卷积特征图,将该卷积特征图输入卷积神经网络,卷积神经网络可以输出多个候选区域的坐标以及各候选区域中存在场景标志或标语的概率。
根据本发明的一些实施例,卷积神经网络可包括检测网络和分类网络,检测网络用于确定目标区域,分类网络用于识别标志或标语,其中,检测网络又包括:特征提取子网络、区域生成子网络、池化层以及边框回归子网络。检测网络和分类网络应彼此独立地进行训练。检测网络中的各子网络可以统一进行训练,也可以彼此独立地训练。卷积神经网络(包括其各子网络)的参数应设置成使得其对场景图像中的标志或标语部分更为敏感。
步骤S14:基于候选区域确定目标区域。
在该步骤中,经过对候选区域的处理或筛选,可以从中选出目标区域,目标区域是(在本发明的场景识别装置看来)真正存在场景标志或标语的某一个或多个候选区域。
根据本发明一些实施例,为了确定目标区域,可以对各候选区域进行阈值过滤、或非极大值抑制筛选。
根据另一些实施例,首先将候选区域对应的卷积特征图输入卷积神经网络(例如,输入至区域生成子网络),以得到候选区域的坐标修正量,再基于坐标修正量来确定最终的目标区域。
步骤S16:从目标区域识别场景中的标志或标语。
作为示例,在该步骤中,可以将目标区域对应的场景图像输入卷积神经网络,以识别其中的场景标志或标语。其中,这些标志或标语指示场景所在的机构或公司的名称或标识。这样,上述方法能够准确识别并区分不同的场景。即使不同场景之间存在着场景陈设的高度相似性,但是其中的标志或标语是最具有场景识别性的特征之一。
正是由于场景的标志或标语的识别性,其能够用来有效区分不同的场景。然而,标志或标语往往对应于场景图像中的一小部分,甚至是不起眼的一小部分,与场景陈设、场景人物相比,其包括的特征量(例如,图像梯度或方差)甚至较小。传统的图像识别方法在提取并识别场景标志或标语时,往往存在提取困难、识别率差等缺陷。为此,本发明引入的检测网络包括特征提取子网络、区域生成子网络、池化层、以及边框回归子网络。其中,特征提取子网络对场景图像的特征进行提取,区域生成子网络用于输出候选区域,池化层是对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;另一方面进行特征压缩,提取主要特征,用来确定目标区域。
为了准确提取目标区域并识别场景标志或标语,需要对卷积神经网络进行预先训练。此外,训练可定期进行,以调整卷积神经网络的各个参数来提高卷积神经网络对场景环境的适应性。
根据一些实施例,训练卷积神经网络可按如下方式进行。
首先,提供至少部分包括标志或标语的大量样本场景图像。对各样本场景图像,分别生成至少一个样本卷积特征图。针对各样本卷积特征图,将其划分为多个大小相同的格子。
随后,针对每个格子,1)、分别预测至少一个样本标记框,其中预测可基于卷积特征图中包含的特征量来进行,样本标记框以坐标来表示。2)、确定各样本标记框的置信度,具体地,若该样本标记框中存在标志或标语,则该标记框的置信度为1,反之为0,若样本标记框与标志或标语部分重叠,则置信度取两者的交集与并集之比,具体为0-1的中间值。3)、确定样本标记框类别的概率,这里可根据置信度的大小进行分类。例如,该格子中预测到4个标记框,置信度分别为0、0、0、1,则存在两个样本标记框类别,其概率分别为0.75、0.25。
进一步地,对卷积神经网络进行训练还包括:确定卷积神经网络的损失函数,并对该损失函数求解以确定卷积神经网络的至少一个参数。对损失函数的求解可采用多种方法,其中利用自适应矩估计优化器来求解是一种更优选的方式。
以下提供训练卷积神经网络的一种具体示例。
一、利用Darknet-53模型,基于样本场景图像生成样本卷积特征图。从第0层一直到74层,一共有53个卷积层,其余为res层。该模型使用一系列的3*3和1*1的卷积核。所形成的卷积层是从多个主流网络结构中选取性能较好的进行整合而得到。
二、将输入的卷积特征图平均地分成S×S个格子,对每个格子分别预测其中的标记框,数量为B个。按上面提到的方法分别确定各标记框的置信度。标记框格式为(x,y,w,h,confident),为目标(标志或标语)的中心位置相对格子位置的偏移及宽度和高度,均被归一化。置信度confident反映是否包含目标以及在包含目标情况下格子位置的准确性。随之,按上面提到的方法确定样本标记框类别(设为C个)的概率。
三、将卷积特征图与全连接层连接(其中全连接层连接所有的特征,将输出值送给分类器),其输出格式是S*S*(5*B+C)的张量。其损失函数计算如下:
其中,xi、yi、wi、hi分别为第i个样本标记框的x、y轴偏移及宽度和高度,Ci为其置信度,classes表示样本标记框类别,pi(C)为样本标记框类别的概率。指示第i个格子的第j个标记框是否包含目标,其中,从与目标所在的真实标记框之间的交并比(交集与并集之比)最大的标记框可预测目标的坐标。λcoord表示坐标的误差权重,下标coord指示坐标。在以上公式中,第一行和第二行用来计算坐标误差,第三行、第四行用来计算交并比误差,最后一行是计算分类误差的。
四、对损失函数的求解采用Adam优化器。Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。矩估计的公式如下:
mt=μ*mt-1+(1-μ)*gt
其中,mt、nt、gt分别为梯度的指数移动均值、平方梯度和梯度,为修正一阶矩的偏差,/>为修正二阶矩的偏差,u、v分别为一阶矩估计的指数衰减率和二阶矩估计的指数衰弱速率,Δθt表示在时间步t和参数空间上的有效下降步长的计算更新值。
以上提供训练卷积神经网络的一种具体示例。应理解,还可以采用其他方式来训练卷积神经网络,但是,应注意,训练的目标是使得卷积神经网络对场景图像中的标志或标语部分更敏感。
应说明的是,卷积神经网络包括检测网络和分类网络,检测网络用于确定目标区域,分类网络用于识别标志或标语。应理解,它们的具体结构可根据神经网络所基于的理论模型来变化。例如,检测网络可采用其他的子网络结构,而不一定需要包括特征提取子网络、区域生成子网络等。优选情况下,检测网络和分类网络独立地构成、独立进行训练。
根据本发明又一些实施例,为了提高识别率,可考虑场景标志或标语在场景图像中所占的比例。作为示例,在摄像头位置固定的情况下,鉴于标志或标语通常也处于固定位置且不轻易移动,标志或标语所在的图像部分占场景图像的面积比例可为1%-5%(这一比例范围可根据实际场景来调整),因此,在训练阶段的样本标记框大小以及在检测识别阶段的候选区域大小可按照这一比例来选定。作为示例,若场景图像为1600×1200像素,样本标记框可取为200×200像素。
本发明第二实施例提供一种场景识别装置,如图2所示,其包括场景图像获取单元201、目标确定单元203和目标识别单元205。
场景图像获取单元201配置成获取场景图像。目标确定单元203配置成利用卷积神经网络从场景图像提取候选区域并基于候选区域确定目标区域。目标识别单元205配置成从目标区域识别场景的标志或标语,其中标志或标语能够指示场景所在的机构或公司。
具体来说,目标确定单元203可基于场景图像生成至少一个卷积特征图。目标确定单元203将各卷积特征图输入卷积神经网络(具体地,输入特征提取子网络),卷积神经网络输出至少一个候选区域的坐标和各候选区域中存在标志或标语的概率。
目标确定单元203还可以对各候选区域进行阈值过滤或非极大值抑制筛选,以滤除过多的干扰项。
进一步地,目标确定单元203将候选区域对应的卷积特征图输入卷积神经网络(具体地,输入区域生成子网络),以得到候选区域的坐标修正量,并且基于坐标修正量确定目标区域。这一过程中,边框回归子网络起到了主要作用。
目标识别单元205配置成,在从目标确定单元203获得目标区域之后,将目标区域对应的场景图像输入卷积神经网络(具体地,输入至分类网络),以识别标志或标语。目标识别单元205可识别出标志或标语中的文字、其他标识或商标,进而可以确定场景所在的机构或公司。
在训练过程中,目标确定单元203采用如下手段来训练卷积神经网络:提供包括标志或标语的样本场景图像;对各样本场景图像,基于样本场景图像生成至少一个样本卷积特征图;对各样本卷积特征图,将样本卷积特征图划分为多个格子。对每个格子,预测至少一个样本标记框,再确定各样本标记框的置信度,还确定样本标记框类别的概率。目标确定单元203进一步确定卷积神经网络的损失函数,并对损失函数求解以确定卷积神经网络的至少一个参数,求解过程可利用自适应矩估计优化器来进行。其中,利用梯度的一阶矩估计和二阶矩估计,可以动态地调整每个参数的学习率。
作为具体示例,场景识别装置可基于Darknet平台来实现,Darknet架设于C语言之上,而其他服务,如KCF等,可采用Python语言实现,借由基于Darknet的Python接口实现模块的对接。为了将场景识别功能配置成API接口或构建为场景识别装置,以便为不同用户提供服务,可构建一个JavaScript-Java-Python-C的工作流,其中采用一个基于Python的服务化容器对深度学习模型进行加载。这里,可考虑Django,它是在python上实现的一个成熟且功能强大的服务化容器,由此构建了一个服务栈,具体时序活动逻辑如下:
1)管理员启动Django服务器,服务器进行初始化。
2)Django服务器初始化时调用Darknet的Python API接口,启动Darknet服务,将模型权重载入GPU。
3)用户在客户端发送请求,由前端的JavaScript发送请求,上传图像数据及控制流。
4)服务器上的Web服务器Tomcat响应用户请求,对Restful的Json请求进行解析,对其中的Base64格式图片进行转码,同时解析控制流中的参数。
5)Tomcat解析请求后,向服务化容器Django发送调用Darknet的请求。
6)Django接受请求后对缓存数据路由后,调用Darknet模型,将相关控制参数传递给Darknet模型。
7)Darknet模型进行计算,返回检测结果给Django服务器。
8)Django服务器对计算结果进行封装,传递给Tomcat服务器。
9)Tomcat服务器处理Django服务器的请求,将其传给请求检测的用户。
在本发明的一些实施例中,装置或系统的至少一部分可采用通信网络所连接的一组分布式计算装置来实现,或,基于“云”来实现。在这种系统中,多个计算装置共同操作,以通过使用共享资源来提供服务。
基于“云”的实现可提供一个或多个优点,包括:开放性、灵活性和可扩展性、可中心管理、可靠性、可缩放性、对计算资源所优化、具有聚合和分析跨多个用户的信息的能力、跨多个地理区域进行连接、以及将多个移动或数据网络运营商用于网络连通性的能力。
根据本发明一些实施例,提供一种机器存储介质,其上存储一批计算机可执行指令,这些计算机可执行指令在由处理器执行时可实现上述第一实施例提供的场景识别方法。
根据本发明又一些实施例,提供一种计算机控制装置,该计算机控制装置在实施储存于存储器中的计算机可执行指令时,将执行上述第一实施例提供的场景识别方法的各步骤。
本领域的技术人员将会理解,结合本文中所公开的方面所描述的各种说明性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了表明硬件和软件间的可互换性,各种说明性部件、块、模块、电路和步骤在上文根据其功能性总体地进行了描述。这样的功能性是实现为硬件还是软件将取决于特定应用以及对总体系统所施加的设计限制。技术人员可以针对具体的特定应用、按照变化的方式来实现所描述的功能性,但是,这样的实现方式决策不应当被理解为引起与本发明范围的背离。
上述说明仅针对于本发明的优选实施例,并不在于限制本发明的保护范围。本领域技术人员可能作出各种变形设计,而不脱离本发明的思想及附随的权利要求。
Claims (18)
1.一种场景识别方法,包括:
获取场景图像;
利用卷积神经网络从所述场景图像提取候选区域,所述候选区域的大小是所述场景图像的面积的1%-5%;
基于所述候选区域确定目标区域;以及
从所述目标区域识别所述场景中的标志或标语;
其中,所述标志或标语指示所述场景所在的机构或公司;
其中,所述卷积神经网络被按照如下过程训练:
提供包括所述标志或标语的样本场景图像;
对各所述样本场景图像:
基于所述样本场景图像生成至少一个样本卷积特征图;
对各所述样本卷积特征图:
将所述样本卷积特征图划分为多个格子;
对每个所述格子:
预测至少一个样本标记框使得所预测的样本标记框的大小是所述样本场景图像的面积的1%-5%;
确定各所述样本标记框的置信度;以及
确定样本标记框类别的概率。
2.根据权利要求1所述的方法,其特征在于,利用卷积神经网络从所述场景图像提取候选区域包括:
基于所述场景图像生成至少一个卷积特征图;
针对各所述卷积特征图:
将所述卷积特征图输入所述卷积神经网络,以得到至少一个所述候选区域的坐标、以及各所述候选区域中存在所述标志或标语的概率。
3.根据权利要求1所述的方法,基于所述候选区域确定目标区域包括:
对各所述候选区域进行阈值过滤和/或非极大值抑制筛选。
4.根据权利要求1所述的方法,其特征在于,基于所述候选区域确定目标区域包括:
将所述候选区域对应的所述卷积特征图输入所述卷积神经网络,以得到所述候选区域的坐标修正量;
基于所述坐标修正量确定所述目标区域。
5.根据权利要求1所述的方法,其特征在于,从所述目标区域识别所述场景的标志或标语包括:
将所述目标区域对应的所述场景图像输入所述卷积神经网络,以识别所述标志或标语。
6.根据权利要求1所述的方法,其特征在于,训练所述卷积神经网络还包括:
确定所述卷积神经网络的损失函数;
对所述损失函数求解以确定所述卷积神经网络的至少一个参数。
7.根据权利要求6所述的方法,其特征在于,对所述损失函数求解包括:
利用自适应矩估计优化器来求解所述损失函数。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述卷积神经网络包括检测网络和分类网络,所述检测网络用于确定所述目标区域,所述分类网络用于识别所述标志或标语,
其中,所述检测网络包括:
特征提取子网络;
区域生成子网络;
池化层;以及
边框回归子网络。
9.一种场景识别装置,包括场景图像获取单元、目标确定单元和目标识别单元,其中:
所述场景图像获取单元配置成获取场景图像;
所述目标确定单元配置成:
利用卷积神经网络从所述场景图像提取候选区域,所述候选区域的大小是所述场景图像的面积的1%-5%;
基于所述候选区域确定目标区域;
所述目标识别单元配置成从所述目标区域识别所述场景中的标志或标语;
其中,所述标志或标语指示所述场景所在的机构或公司;
所述目标确定单元进一步配置成训练所述卷积神经网络,其中训练所述卷积神经网络包括:
提供包括所述标志或标语的样本场景图像;
对各所述样本场景图像:
基于所述样本场景图像生成至少一个样本卷积特征图;
对各所述样本卷积特征图:
将所述样本卷积特征图划分为多个格子;
对每个所述格子:
预测至少一个样本标记框使得所预测的样本标记框的大小是所述样本场景图像的面积的1%-5%;
确定各所述样本标记框的置信度;以及
确定样本标记框类别的概率。
10.根据权利要求9所述的装置,其特征在于,所述目标确定单元配置成:
基于所述场景图像生成至少一个卷积特征图;
针对各所述卷积特征图:
将所述卷积特征图输入所述卷积神经网络,以得到至少一个所述候选区域的坐标、以及各所述候选区域中存在所述标志或标语的概率。
11.根据权利要求9所述的装置,其特征在于,所述目标确定单元配置成对各所述候选区域进行阈值过滤和/或非极大值抑制筛选。
12.根据权利要求9所述的装置,其特征在于,所述目标确定单元配置成将所述候选区域对应的所述卷积特征图输入所述卷积神经网络,以得到所述候选区域的坐标修正量;
基于所述坐标修正量确定所述目标区域。
13.根据权利要求9所述的装置,其特征在于,所述目标识别单元配置成将所述目标区域对应的所述场景图像输入所述卷积神经网络,以识别所述标志或标语。
14.根据权利要求9所述的装置,其特征在于,在训练所述卷积神经网络时,所述目标确定单元进一步配置成:
确定所述卷积神经网络的损失函数;
对所述损失函数求解以确定所述卷积神经网络的至少一个参数。
15.根据权利要求14所述的装置,其特征在于,在训练所述卷积神经网络时,所述目标确定单元进一步配置成:
利用自适应矩估计优化器来求解所述损失函数。
16.根据权利要求9至15中任一项所述的装置,其特征在于,所述卷积神经网络包括检测网络和分类网络,所述检测网络用于确定所述目标区域,所述分类网络用于识别所述标志或标语,
其中,所述检测网络包括:
特征提取子网络;
区域生成子网络;
池化层;以及
边框回归子网络。
17.一种机器存储介质,其上存储一批计算机可执行指令,其中所述计算机可执行指令,在由处理器执行时,实现权利要求1至7中任一项所述的方法。
18.一种计算机控制装置,所述计算机控制装置在实施储存于存储器中的计算机可执行指令时,执行权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911172445.7A CN110956115B (zh) | 2019-11-26 | 2019-11-26 | 场景识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911172445.7A CN110956115B (zh) | 2019-11-26 | 2019-11-26 | 场景识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956115A CN110956115A (zh) | 2020-04-03 |
CN110956115B true CN110956115B (zh) | 2023-09-29 |
Family
ID=69978460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911172445.7A Active CN110956115B (zh) | 2019-11-26 | 2019-11-26 | 场景识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956115B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507253B (zh) * | 2020-04-16 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的陈列物品审核方法、装置 |
CN111461101B (zh) * | 2020-04-20 | 2023-05-19 | 上海东普信息科技有限公司 | 工服标志的识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522938A (zh) * | 2018-10-26 | 2019-03-26 | 华南理工大学 | 一种基于深度学习的图像中目标的识别方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110163187A (zh) * | 2019-06-02 | 2019-08-23 | 东北石油大学 | 基于f-rcnn的远距离交通标志检测识别方法 |
CN110188705A (zh) * | 2019-06-02 | 2019-08-30 | 东北石油大学 | 一种适用于车载系统的远距离交通标志检测识别方法 |
-
2019
- 2019-11-26 CN CN201911172445.7A patent/CN110956115B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN109522938A (zh) * | 2018-10-26 | 2019-03-26 | 华南理工大学 | 一种基于深度学习的图像中目标的识别方法 |
CN110163187A (zh) * | 2019-06-02 | 2019-08-23 | 东北石油大学 | 基于f-rcnn的远距离交通标志检测识别方法 |
CN110188705A (zh) * | 2019-06-02 | 2019-08-30 | 东北石油大学 | 一种适用于车载系统的远距离交通标志检测识别方法 |
Non-Patent Citations (2)
Title |
---|
张明 ; 桂凯 ; .基于深度学习的室内场景识别的研究.现代计算机(专业版).2018,(16),全文. * |
李家兴 ; 覃兴平 ; 刘达才 ; .基于卷积神经网络的交通标志检测.工业控制计算机.2018,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110956115A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10289940B2 (en) | Method and apparatus for providing classification of quality characteristics of images | |
CN108229509B (zh) | 用于识别物体类别的方法及装置、电子设备 | |
CN109145759B (zh) | 车辆属性识别方法、装置、服务器及存储介质 | |
US8872851B2 (en) | Augmenting image data based on related 3D point cloud data | |
US20190286938A1 (en) | Real-to-synthetic image domain transfer | |
CN108596055B (zh) | 一种复杂背景下高分辨遥感图像的机场目标检测方法 | |
US20150138310A1 (en) | Automatic scene parsing | |
CN110222686B (zh) | 物体检测方法、装置、计算机设备和存储介质 | |
KR101261409B1 (ko) | 영상 내 노면표시 인식시스템 | |
CN110717532A (zh) | 基于SE-RetinaGrasp模型的机器人目标抓取区域实时检测方法 | |
Ghorbanzadeh et al. | Dwelling extraction in refugee camps using cnn–first experiences and lessons learnt | |
CN111767878A (zh) | 嵌入式设备中基于深度学习的交通标志检测方法及系统 | |
CN102270304A (zh) | 数据差异引导的图像捕获 | |
CN110956115B (zh) | 场景识别方法及装置 | |
CN110298281A (zh) | 视频结构化方法、装置、电子设备及存储介质 | |
CN112966548A (zh) | 一种大豆地块识别方法及系统 | |
CN110399882A (zh) | 一种基于可变形卷积神经网络的文字检测方法 | |
CN110555420A (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
Kalantar et al. | Smart counting–oil palm tree inventory with UAV | |
KR20200017611A (ko) | 딥러닝을 이용한 위치 측위 방법 및 장치 | |
CN114022837A (zh) | 车站遗留物品检测方法、装置、电子设备及存储介质 | |
CN114283281A (zh) | 目标检测方法及其装置、设备、介质、产品 | |
CN115410173B (zh) | 多模态融合的高精地图要素识别方法、装置、设备及介质 | |
CN105631849B (zh) | 多边形目标的变化检测方法及装置 | |
KR20200017612A (ko) | 딥러닝을 이용한 위치 측위 학습 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |