CN106547880B - 一种融合地理区域知识的多维度地理场景识别方法 - Google Patents
一种融合地理区域知识的多维度地理场景识别方法 Download PDFInfo
- Publication number
- CN106547880B CN106547880B CN201610951093.5A CN201610951093A CN106547880B CN 106547880 B CN106547880 B CN 106547880B CN 201610951093 A CN201610951093 A CN 201610951093A CN 106547880 B CN106547880 B CN 106547880B
- Authority
- CN
- China
- Prior art keywords
- image
- geographic
- data
- classification
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 238000013178 mathematical model Methods 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 2
- 210000002569 neuron Anatomy 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282324 Felis Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种融合地理区域知识的多维度地理场景识别方法。包括步骤:对数据库中的图像进行预处理,得到符合的地理场景图像;利用一种快速查找图像中物体区域的方法,得到物体区域图像块;将得到的地理图像物体区域图像块用深度卷积神经网络进行预训练,精调过程至场景图像深度卷积神经网络性能不再提升,把特征矩阵融合为输出特征向量;将所得采集地理场景分类中的实体名词数据预先建立地理实体名词关键词词典,对所述目标识别结果数据进行分词,获得所述目标识别结果中的关键性词语,建立文本特征;将文本特征和多个尺度的图像特征融合为特征向量作为输入,实现跨媒体数据的识别分类,进而实现融合地理实体信息的场景分类。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及多维度的地理场景识别技术。
背景技术
场景分类,即依据场景图像中所包含的特征来完成对图像场景类别(如山脉、森林、卧室、客厅等)的自动识别,是图像理解领域的一个重要分支,已成为多媒体信息管理、计算机视觉等领域的热点问题,受到研宄者的广泛关注。场景分类对多媒体信息检索等领域的发展具有重要意义,在多个领域具有广泛的应用前景和理论意义。
随着大数据时代的到来,含更多隐含层的深度卷积神经网络具有更复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型自提出以来在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。
卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工作者对该网络进行了改进。其中,具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。
一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
CNN在提取图像深层次特征时,构建了多层的网络结构,这就需要大量的带标签数据样本来训练网络参数,而实际的场景图像中人工标记的代价大,造成场景分类中往往数据样量小,采用传统的CNN方法分类精度不高。针对上述问题,本专利提出一种融合地理区域知识的多维度地理场景识别方法,以获得多尺度的图像特征,提高小样本数据下的分类精度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种准确率,效率上都有了很大的提高的融合地理区域知识的多维度地理场景识别方法。本发明的技术方案如下:
一种融合地理区域知识的多维度地理场景识别方法,其包括以下步骤:
101、对数据库中的预先获取的地理场景原始图片图像进行预处理,得到预设大小的地理场景灰度化图像;
102、利用一种快速查找图像中物体区域的方法,得到步骤101的地理场景灰度化图像的若干物体区域图像块,将得到的地理图像物体区域图像作为基于区域的卷积神经网络的输入;
103、通过深度学习的方法提取包含有物体的地理图像区域的目标区域的特征组成特征矩阵,把特征矩阵融合为卷积神经网络的输出特征向量;
104、将所得采集地理场景分类中的实体名词数据预先建立地理实体名词关键词词典,对所述步骤103的输出量目标识别结果数据进行分词,获得所述目标识别结果中的关键性词语,建立文本特征;
105、将文本特征和多个尺度的目标区域图像特征融合为特征向量作为输入,采用跨媒体数据的识别分类方法,进而实现融合地理实体信息的场景分类。
进一步的,步骤101对数据库中的图像进行预处理包括的步骤为:利用梯度锐化图片的步骤;去除离散噪声的步骤;采用双线性插值算法对图像进行缩放的步骤。
进一步的,所述去除离散噪声的步骤为:利用递归方法查找当前像素的八个方向是否存在黑色像素,测试预设值N,N表示预设黑色像素阈值,并设置连续长度为N,如果用递归方法得到连续像素值大于N,则认为不是噪声,相反的则认为是噪声,则置为白色像素。
进一步的,采用双线性插值算法对图像进行缩放,核心思想是在两个相反方向分别进行一次线性插值,以保证满足输入要求,得到预设大小的地理场景图像。
进一步的,步骤103通过深度学习的方法提取包含有物体的地理图像区域的目标特征组成特征矩阵,把特征矩阵融合为卷积神经网络的输出特征向量的步骤包括:
在图形处理器上搭建基于包含多种卷积神经网络模型的Tensorflow深度学习框架的平台;
准备训练数据集和带有标签的测试数据集,并利用上述数据集在图形处理器上训练上述卷积神经网络模型;
列出地理场景中包含的物体类别;
将上述物体类别中的原始图像和旋转180度后的图像输入上述已训练好的卷积神经网络模型,得到top-10测试结果,输出目标识别的实体名词。
进一步的,所述步骤102利用一种快速查找图像中物体区域的方法,得到步骤101的地理场景灰度化图像的若干物体区域图像块具体包括:
首先利用视觉注意机制提取图像的显著性区域,并对其进行二值化与最大连通显著区域提取操作;再对该区域进行适当边缘补偿操作,将补偿后的二值化显著图作为分割初始区域;最后利用GrabCut算法完成图像的区域自动快速划分。
进一步的,步骤104文本特征和多个尺度的图像特征融合为特征向量作为输
入,采用跨媒体数据的识别分类方法包括步骤:
A1、对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据;
A2、对步骤A1中输入的数值型数据以及相应的标签信息,建立数学模型并
输出;
A3、更新数学模型中的分类器系数、一致性特征空间的映射向量和特征表示;
A4、利用分类器系数,得到尚未分类的测试数据的分类标签。
进一步的,步骤A2对输入的数值型数据以及相应的标签信息,建立数学模型并输出包括步骤:
B1、将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入,将有标签数据和无标签数据联合建立成一个数据矩阵;
B2、将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型;
B3、对空间变换映射矩阵施加二值化的正则项约束;
B4、对分类系数变量施加L2范数约束;B5、将步骤B2得到的分类模型和步骤B3、B4中得到的各个正则项整合起来,得到统一的数学模型。
本发明的优点及有益效果如下:
本发明提出了根据不同模态特征之间数据的内在联系,利用有便签的地理实体数据又考虑图像本身的信息,挖掘出其间共存的信息,通过二值化约束来加速计算,并通过多分的回归模型,调整基于共存信息的回归系数,使模型更准确的预测出分类标签。相比于现有的快速学习分类技术,本发明提出的分类方法在准确率,效率上都有了很大的提高。
附图说明
图1是本发明提供优选实施例基于深度学习实现地理场景分类的方法的流程图;
图2为图像预处理的步骤;
图3为图像快速划分算法流程图;
图4为跨媒体数据的半监督内容识别的分类方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明的技术方案如下:
下面结合附图和具体实施例对本发明提供的基于卷积神经网络模型的物品图像分类方法进行详细说明。
对数据库中的图像进行预处理,得到预设大小的地理场景灰度化图像,参考图2,具体步骤如下:
(1)利用梯度锐化,使得图像更加突出,以便分析。当前点像素值与其下一个像素值之差的绝对值,加上当前点像素值与其下一行当前像素值之差的绝对值,如果结果大于阈值,则当前像素值置为此结果。
(2)去除离散噪声:利用递归方法查找当前像素的八个方向是否存在黑色像素,测试合适的值N,并设置连续长度为N,如果用递归方法得到连续像素值大于N,则认为不是噪声,相反的则认为是噪声,则置为白色像素。
(3)采用双线性插值算法对图像进行缩放,核心思想是在两个方向分别进行一次线性插值,以保证满足输入要求,得到预设大小的地理场景图像。
(4)灰度化图像:根据YUV的颜色空间中,Y的分量的物理意义是点的亮度,由该值反映亮度等级,根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应:Y=0.3R+0.59G+0.11B,以这个亮度值表达图像的灰度值。
本发明提供的基于深层卷积神经网络的图像提取特征方法包括按顺序进行的下列步骤:
(1)在图形处理器上搭建基于包含多种卷积神经网络模型的Tensorflow深度学习框架的平台;
Tensorflow是目前流行的高效深度学习框架之一,具有纯粹的C++/CUDA架构,支持命令行、Python和MATLAB接口,可以在CPU和图形处理器上直接无缝切换。
Tensorflow的优势是:1、上手快。其包含的模型与相应优化都是以文本形式而非源码形式给出,并且给出了模型的定义、最优化设置以及预训练的权重,因此方便立即上手。2、速度快。能够运行最深层的模型和海量的数据。3、模块化。方便扩展到新的任务和设置上,可以使用Tensorflow提供的各层类型来定义自己的模型。4、开放性。公开代码和参考模型,方便用户复现和再开发。
(2)准备训练数据集和带有标签的测试数据集,并利用上述数据集在图形处理器上训练上述卷积神经网络模型;
本发明采用的是ImageNet数据集。ImageNet数据集中有超过1.5亿张具有标签的高分辨率图像,这些图像划分为22000类,均来自互联网,由一些志愿者进行标注。从2010年开始,每年都举办全球范围的基于ImageNet数据集的大规模视觉识别竞赛(ImageNetLarge-Scale Visual Recognition Challenge,ILSVRC)。ILSVRC采用ImageNet的一个子数据集,具有1000个类别,每个类别中大概有1000幅左右的图像。总体上,有大概0.12亿张训练图像,50000张确认图像(带标注,每个类别50张图像),150000张测试图像(不带标注,每个类别150张图像)。ImageNet数据集由可变分辨率图像组成,但是系统需要一个不变的输入维度。因此,本发明降采样图像到固定的256*256分辨率。在这里本发明从ImageNet数据集中选择0.12亿张训练图像作为训练数据集,测试数据集采用带有标签的确认数据集。
本发明使用流行的卷积神经网络模型GoogleNet。VGG和GoogleNet是ILSVRC 2014竞赛的双雄,这两类模型结构的共同特点是网络层数更多,网络更深。而GoogoleNet的框架与CaffeNet不同,共有22层,其最大的特点就是提升了计算资源的利用率,在网络需要的计算量不变的前提下,可提升网络的宽度和深度,并且GoogLeNet使用的参数比VGG少12倍,而正确率更高。
(3)列出地理场景中包含的物体类别;
在地理场景中,由于许多物体会频繁出现,不同场景中物体出现的频率与位置不同,结合地理实体名词字典,列出地理场景中包含的物体类别,并在ImageNet子数据集的各类物品中筛选出对应数据集。
(4)将上述物品类别中的原始图像和旋转180度后的图像输入上述已训练好的卷积神经网络模型,得到top-10测试结果,实现含有物品图像的分类;
将上述物品类别中的原始图像作为训练图像输入到上述已训练好的卷积神经网络模型,得到top-10测试结果。本发明采用常用的top-10分类准确率标准,即输出概率最大的10个类别,如果输出的图像标注的类别在这10个类别中,表明该图像分类正确。
参考图4所示的本发明实施例的大规模跨媒体特征数据融合的分类方法的流程图,其包括以下步骤:
(1)对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据;
(2)对步骤(1)中输入的数值型数据以及相应的标签信息,建立数学模型。具体包括步骤以下五步:
1)将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。
2)将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型。
3)对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度。
4)对分类系数变量施加L2范数约束,以提高系统的鲁棒性
5)将步骤2)得到的分类模型和步骤3),4)中得到的各个正则项整合起来,得到统一的数学模型。
(3)在保持其他变量不变的前提下,更新各类型特征空间的映射向量。
根据分类器系数,得到尚未分类的测试数据的分类标签。在得到了一致性特征空间下的表示之后,进一步的计算新样本的分类标签。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种融合地理区域知识的多维度地理场景识别方法,其特征在于,包括以下步骤:
101、对数据库中的预先获取的地理场景原始图片图像进行预处理,得到预设大小的地理场景灰度化图像;
102、利用一种快速查找图像中物体区域的方法,得到步骤101的地理场景灰度化图像的若干物体区域图像块,将得到的地理图像物体区域图像作为基于区域的卷积神经网络的输入;
103、通过深度学习的方法提取包含有物体的地理图像区域的目标区域的特征组成特征矩阵,把特征矩阵融合为卷积神经网络的输出特征向量;具体包括:
在图形处理器上搭建基于包含多种卷积神经网络模型的Tensorflow深度学习框架的平台;准备训练数据集和带有标签的测试数据集,并利用上述数据集在图形处理器上训练上述卷积神经网络模型;列出地理场景中包含的物体类别;将上述物体类别中的原始图像和旋转180度后的图像输入上述已训练好的卷积神经网络模型,得到top-10测试结果,输出目标识别的实体名词;
104、将所得采集地理场景分类中的实体名词数据预先建立地理实体名词关键词词典,对步骤103的输出特征向量目标识别结果数据进行分词,获得所述目标识别结果中的关键性词语,建立文本特征;
105、将文本特征和多个尺度的目标区域图像特征融合为特征向量作为输入,采用跨媒体数据的识别分类方法,进而实现融合地理实体信息的场景分类。
2.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法,其特征在于,步骤101对数据库中的图像进行预处理包括的步骤为:利用梯度锐化图片的步骤;去除离散噪声的步骤;采用双线性插值算法对图像进行缩放的步骤。
3.根据权利要求2所述的融合地理区域知识的多维度地理场景识别方法,其特征在于,所述去除离散噪声的步骤为:利用递归方法查找当前像素的八个方向是否存在黑色像素,测试预设值N,N表示预设黑色像素阈值,并设置连续长度为N,如果用递归方法得到连续像素值大于N,则认为不是噪声,相反的则认为是噪声,则置为白色像素。
4.根据权利要求2或3所述的融合地理区域知识的多维度地理场景识别方法,其特征在于,采用双线性插值算法对图像进行缩放,核心思想是在两个相反方向分别进行一次线性插值,以保证满足输入要求,得到预设大小的地理场景图像。
5.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法,其特征在于,所述步骤102利用一种快速查找图像中物体区域的方法,得到步骤101的地理场景灰度化图像的若干物体区域图像块具体包括:
首先利用视觉注意机制提取图像的显著性区域,并对其进行二值化与最大连通显著区域提取操作;再对该区域进行适当边缘补偿操作,将补偿后的二值化显著图作为分割初始区域;最后利用GrabCut算法完成图像的区域自动快速划分。
6.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法,其特征在于,步骤104文本特征和多个尺度的图像特征融合为特征向量作为输入,采用跨媒体数据的识别分类方法包括步骤:
A1、对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据;
A2、对步骤A1中输入的数值型数据以及相应的标签信息,建立数学模型并输出;
A3、更新数学模型中的分类器系数、一致性特征空间的映射向量和特征表示;
A4、利用分类器系数,得到尚未分类的测试数据的分类标签。
7.根据权利要求6所述的融合地理区域知识的多维度地理场景识别方法,其特征在于,步骤A2对输入的数值型数据以及相应的标签信息,建立数学模型并输出包括步骤:
B1、将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入,将有标签数据和无标签数据联合建立成一个数据矩阵;
B2、将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型;
B3、对空间变换映射矩阵施加二值化的正则项约束;
B4、对分类系数变量施加L2范数约束;B5、将步骤B2得到的分类模型和步骤B3、B4中得到的各个正则项整合起来,得到统一的数学模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610951093.5A CN106547880B (zh) | 2016-10-26 | 2016-10-26 | 一种融合地理区域知识的多维度地理场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610951093.5A CN106547880B (zh) | 2016-10-26 | 2016-10-26 | 一种融合地理区域知识的多维度地理场景识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547880A CN106547880A (zh) | 2017-03-29 |
CN106547880B true CN106547880B (zh) | 2020-05-12 |
Family
ID=58393166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610951093.5A Active CN106547880B (zh) | 2016-10-26 | 2016-10-26 | 一种融合地理区域知识的多维度地理场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547880B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451661A (zh) * | 2017-06-29 | 2017-12-08 | 西安电子科技大学 | 一种基于虚拟图像数据集的神经网络迁移学习方法 |
CN107437100A (zh) * | 2017-08-08 | 2017-12-05 | 重庆邮电大学 | 一种基于跨模态关联学习的图像位置预测方法 |
CN107808132A (zh) * | 2017-10-23 | 2018-03-16 | 重庆邮电大学 | 一种融合主题模型的场景图像分类方法 |
CN109858505B (zh) * | 2017-11-30 | 2023-04-07 | 厦门大学 | 分类识别方法、装置及设备 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108052966B (zh) * | 2017-12-08 | 2021-02-09 | 重庆邮电大学 | 基于卷积神经网络的遥感图像场景自动提取和分类方法 |
CN109934242A (zh) * | 2017-12-15 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 图片识别方法和装置 |
CN108269304B (zh) * | 2017-12-22 | 2022-03-11 | 中国科学院电子学研究所苏州研究院 | 一种多地理信息平台下的场景融合可视化方法 |
CN108447074B (zh) * | 2018-02-02 | 2020-04-03 | 中国科学院西安光学精密机械研究所 | 基于双向自适应语义融合的水下目标识别方法 |
CN108229440A (zh) * | 2018-02-06 | 2018-06-29 | 北京奥开信息科技有限公司 | 一种基于多传感器融合室内人体姿态识别方法 |
CN110322011B (zh) * | 2018-03-28 | 2021-08-06 | 普天信息技术有限公司 | 面向推理模型的对象关系构造方法及装置 |
CN109189964A (zh) * | 2018-07-20 | 2019-01-11 | 杭州电子科技大学 | 基于局部敏感哈希索引和图像路标的场景识别方法 |
CN109635171B (zh) * | 2018-12-13 | 2022-11-29 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
CN110162639A (zh) * | 2019-04-16 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 识图知意的方法、装置、设备及存储介质 |
CN110222704B (zh) * | 2019-06-12 | 2022-04-01 | 北京邮电大学 | 一种弱监督目标检测方法及装置 |
CN110704619B (zh) * | 2019-09-24 | 2022-06-10 | 支付宝(杭州)信息技术有限公司 | 文本分类方法、装置及电子设备 |
PH12021552823A1 (en) * | 2019-10-10 | 2022-10-24 | Grabtaxi Holdings Pte Ltd | Method, data processing apparatus and computer program product for determining road intersections |
CN110910496B (zh) * | 2019-11-05 | 2023-04-18 | 安徽成方智能科技有限公司 | 基于大数据和ai的vr自然环境自动构成方法 |
CN111144363B (zh) * | 2019-12-31 | 2023-02-28 | 北京理工大学 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
CN111523597B (zh) * | 2020-04-23 | 2023-08-25 | 北京百度网讯科技有限公司 | 目标识别模型训练方法、装置、设备以及存储介质 |
CN111597921B (zh) * | 2020-04-28 | 2024-06-18 | 深圳市人工智能与机器人研究院 | 场景识别方法、装置、计算机设备和存储介质 |
CN111931664B (zh) * | 2020-08-12 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN112026786B (zh) * | 2020-09-09 | 2022-03-01 | 深圳技术大学 | 智能车的协同驾驶控制系统及多车协同驾驶控制系统 |
CN112256888A (zh) * | 2020-10-30 | 2021-01-22 | 南京师范大学 | 地理知识获取方法 |
CN112819659B (zh) * | 2021-02-09 | 2022-11-11 | 华东师范大学 | 旅游景点开发与评价方法 |
CN113204615B (zh) * | 2021-04-29 | 2023-11-24 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、设备和存储介质 |
US11688156B2 (en) * | 2021-06-23 | 2023-06-27 | Black Sesame Technologies Inc. | Scene recognition based on labeled feature vectors of an image |
CN113592390B (zh) * | 2021-07-12 | 2024-08-02 | 嘉兴恒创电力集团有限公司博创物资分公司 | 一种基于多传感器融合的仓储数字孪生的方法与系统 |
CN114120304B (zh) * | 2021-11-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 实体识别方法、装置及计算机程序产品 |
CN114418036B (zh) * | 2022-03-28 | 2022-06-21 | 浙江所托瑞安科技集团有限公司 | 神经网络的性能测试和训练方法、设备和存储介质 |
CN116343104B (zh) * | 2023-02-03 | 2023-09-15 | 中国矿业大学 | 视觉特征与向量语义空间耦合的地图场景识别方法及系统 |
CN116958492B (zh) * | 2023-07-12 | 2024-05-03 | 数元科技(广州)有限公司 | 一种基于NeRf重建三维底座场景渲染的VR编辑方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077408A (zh) * | 2014-07-11 | 2014-10-01 | 浙江大学 | 大规模跨媒体数据分布式半监督内容识别分类方法及装置 |
CN105678278A (zh) * | 2016-02-01 | 2016-06-15 | 国家电网公司 | 一种基于单隐层神经网络的场景识别方法 |
CN105787510A (zh) * | 2016-02-26 | 2016-07-20 | 华东理工大学 | 基于深度学习实现地铁场景分类的系统及方法 |
-
2016
- 2016-10-26 CN CN201610951093.5A patent/CN106547880B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077408A (zh) * | 2014-07-11 | 2014-10-01 | 浙江大学 | 大规模跨媒体数据分布式半监督内容识别分类方法及装置 |
CN105678278A (zh) * | 2016-02-01 | 2016-06-15 | 国家电网公司 | 一种基于单隐层神经网络的场景识别方法 |
CN105787510A (zh) * | 2016-02-26 | 2016-07-20 | 华东理工大学 | 基于深度学习实现地铁场景分类的系统及方法 |
Non-Patent Citations (1)
Title |
---|
"基于视觉注意机制的图像分割算法研究及其应用";何以然;《中国优秀硕士学位论文全文数据库--信息科技辑》;20160715(第07期);第24-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106547880A (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN106920243B (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN105701508B (zh) | 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 | |
CN112966684A (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN108256562A (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN106815323B (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
Arulananth et al. | Semantic segmentation of urban environments: Leveraging U-Net deep learning model for cityscape image analysis | |
Liu et al. | Dunhuang murals contour generation network based on convolution and self-attention fusion | |
Vijayalakshmi K et al. | Copy-paste forgery detection using deep learning with error level analysis | |
Sun et al. | A Metaverse text recognition model based on character-level contrastive learning | |
Li et al. | A review of advances in image inpainting research | |
Wei et al. | Multi-task joint learning of 3d keypoint saliency and correspondence estimation | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
Kong et al. | Foreground feature attention module based on unsupervised saliency detector for few-shot learning | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
CN116977265A (zh) | 缺陷检测模型的训练方法、装置、计算机设备和存储介质 | |
Zhuang et al. | Multi-class remote sensing change detection based on model fusion | |
Cheng et al. | Audio-visual salient object detection | |
Sreenivasulu et al. | Adaptive inception based on transfer learning for effective visual recognition | |
Wei et al. | Wall segmentation in house plans: fusion of deep learning and traditional methods | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network | |
Wen | Research on modern book packaging design based on aesthetic evaluation based on a deep learning model | |
CN115035390B (zh) | 一种基于gan和特征增强的航拍图检测方法 | |
Sun et al. | Salient object detection based on deep multi-level cascade network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |