CN116524244A - 一种机器视觉图像处理方法及系统 - Google Patents
一种机器视觉图像处理方法及系统 Download PDFInfo
- Publication number
- CN116524244A CN116524244A CN202310386224.XA CN202310386224A CN116524244A CN 116524244 A CN116524244 A CN 116524244A CN 202310386224 A CN202310386224 A CN 202310386224A CN 116524244 A CN116524244 A CN 116524244A
- Authority
- CN
- China
- Prior art keywords
- image
- machine vision
- image processing
- processing method
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000000994 depressogenic effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 11
- 230000011218 segmentation Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图像处理技术领域,且公开了一种机器视觉图像处理方法,包括:步骤S1,获取图像;步骤S2,对图像进行归一化处理;步骤S3,划分数据,引入数据增强,进一步增强训练数据;步骤S4,创建卷积神经网络,通过编码层对图像进行特征提取,通过解码层网络特征图像映射到原图大小;步骤S5,对图像进行二分类,获得目标图像,实现图像分类。还公开了一种机器视觉图像处理系统。能快速对图像进行语义分割,进而实现图像分类,节省人力。
Description
技术领域
本发明涉及图像处理技术领域,具体为一种机器视觉图像处理方法及系统。
背景技术
当今社会,人工智能作为先进的科技代表,在各个方面都影响着人们生活与社会的发展。图像处理技术的准确性、时效性在人工智能领域越来越重要。由于遥感技术的发展,人类所能收集到的遥感图像愈来愈多,对遥感图像的处理工作也将日益繁杂。而目前的遥感技术图像处理手段则主要依赖于人类的先验能力,因此必须花费巨大的人工资源标记、识别遥感技术图像,完成图像处理工作。
发明内容
本发明的目的在于克服现有的缺陷而提供的一种机器视觉图像处理方法及系统,能快速对图像进行语义分割,进而实现图像分类,节省人力。
实现上述目的的技术方案是:
本发明之一的一种机器视觉图像处理方法,包括:
步骤S1,获取图像;
步骤S2,对图像进行归一化处理;
步骤S3,划分数据,引入数据增强,进一步增强训练数据;
步骤S4,创建卷积神经网络,通过编码层对图像进行特征提取,通过解码层网络特征图像映射到原图大小;
步骤S5,对图像进行二分类,获得目标图像,实现图像分类。
优选的,所述步骤S2中,采用min-max(最小-最大)标准化对图像进行归一化处理。
优选的,所述步骤S3中,通过翻转图像、添加噪声进行图像增强。
优选的,所述步骤S3中,每一个卷积层后都连接一个激活函数层,所述激活函数采用ReLU函数,如下式所示:
当神经元所得到的对输入信息的累积效应达到了该阈值点时,神经元被激发而保持在活跃状况;否则,它们将陷入抑郁状况,在ReLU(一种激活函数)中,当x>=0时,激活神经元,当x<0时,不能激活神经元。
优选的,所述步骤S4中,采用不同大小卷积核相结合,在提升网络深度的同时,对网络提取的特征进行降维。
优选的,所述步骤S4中,一个所述编码层对应一个所述解码层。
优选的,所述步骤S4中,最后一个所述解码层后连接一个用于独立的分类每个像素的max pooling层。
优选的,所述步骤S5中,对图像中每一个类别单独训练一个二分类模型,使用Sigmoid激活函数进行分类,采用对数损失函数为对应的损失函数。
本发明之二的一种机器视觉图像处理系统,包括:
图像采集模块,用于获取图像;
图像处理模块,用于图像的归一化处理;
数据增强模块,用于将划分的数据进一步的数据增强;
卷积神经网络模块,用于创建卷积神经网络,提取图像特征;
图像分类模块,用于对提取特征的图像进行二分类,获得目标图像。
本发明的有益效果是:本发明将图像变化监测问题转换为基于二分类的图像语义分割的问题进行处理,利用卷积神经网络的编码器完成对图像特征的提取,并通过解码器对图像进行整合,并对图像进行二分类,得到目标图像。二分类可以有效的改善了多分类分割模型分割图像中的边缘毛刺,使得目标图像边缘更加接近场景的真实边缘;本发明能精确的区分图像中类别,同时,分割可以确定的目标轮廓,对目标的行为预测具有较大的帮助,且减少了人对图像进行一一分类,节省了人力。
附图说明
图1是本发明一种机器视觉图像处理方法的流程图;
图2是本发明一种机器视觉图像处理系统的模块图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相正对地重要性。
下面将结合附图对本发明作进一步说明。
如图所示,一种机器视觉图像处理方法,包括:
步骤S1,获取图像。
选取需要进行分类的RGB图像,本发明中所用的资料都是从ISPRS(国际摄影测量与遥感学会)Vaihingen所提供的城市分类和三维建筑的测试项目的两个当时最先进的航空图像资料收集。数据集中使用了高分辨率正交图像所产生的数字地形模型,以及相应的高度密集图像匹配技术。这两种数据的集中区域都涵盖了整个城市场景。Vaihingen是一种比较小型的村落,拥有很多独特的建筑和小型高层建筑。而这些数据集中被手动划分成了六个非常普遍的地域覆盖类型:(1)不透水面(surfaces)(RGB:255,255,255),(2)建筑物(building)(RGB:0,0,255),(3)低矮植被(vegetation)(RGB:0,255,255),(4)树木(tree)(RGB:0,255,0),(5)汽车(car)(RGB:255,255,0),(6)背景(clutter)(RGB:255,,0,0);背景类型一般包含了水体,以及不同于其他定义类型的物件。而这个对象一般作为语义对象,对城市环境并不感兴趣。该数据集包括了许多各种尺寸的遥感图片。
步骤S2,对图像进行归一化处理。采用min-max标准化对图像进行归一化处理。对原始数据进行线性变换,将值映射到[0,1]之间。将样本转换成为float32(单精度类型,占据4个字节byte,32个二进制位bit)类型,对每个像素点除以255,使得输入的样本像素值变小,减小图像中噪声像素值的影响。
步骤S3,划分数据,引入数据增强,进一步增强训练数据。
具体地,通过引入数据增强来进一步增强我们的训练数据,方式有但不限于翻转图像,添加噪声等。
步骤S4,创建卷积神经网络,通过编码层对图像进行特征提取,通过解码层将网络特征图像映射到原图大小。
将图像输入到卷积神经网络中,通过多次迭代学习得到最优的模型参数,并将该模型及对应参数保存下来,在推理阶段,将图像直接输入到保存的模型中便可得到最终的分割结果。但是直接对图像进行卷积操作会使图像变小,而原图的边缘信息对图像内容的贡献度较小,因此使用padding(填充)来解决该问题,即在卷积的过程中对图像边缘填0来扩大尺寸,使得多次卷积操作后图像大小保持不变。
采用不同大小卷积核相结合,在提升网络深度的同时,对网络提取的特征进行降维。每一个卷积层后都连接一个激活函数层,所述激活函数采用ReLU函数,如下式所示:
当神经元所得到的对输入信息的累积效应达到了该阈值点时,神经元被激发而保持在活跃状况;否则,它们将陷入抑郁状况,在ReLU中,当x>=0时,激活神经元,当x<0时,不能激活神经元。
每个标准卷积层之后是一个ReLU激活函数层。在模型的前半部分中,池化层用于降低数据的维数,而在后半部分中,维数增加。池层通过保持输入矩阵的通道数不变来降低高度和宽度信息,从而降低计算复杂度。
在解码部分,每经过一次池层后,就建立了一次新的比例尺,包含了原有的地图比例尺,共五个比例尺。解码部分将在每个取样时刻,都和特征提取部分对应的同样数量的信道融合。采用这种方法,就能够得到更丰富的上下文信号。并且在编码过程中,可以采用多种尺度融合丰富详细的信息,以提升分割准确度。
卷积神经网络包括了两个重复互相的3×-3卷积的应用程序。在每个卷积运算之后,跟着一个线性元素和一个2×2的最大池采集步骤。在每个采集步骤中,特征通路的总量都增加了一倍。而扩张路线的每一个都包括了一个样本,向上映射的特性,之后是一个2×2最大的卷积运算。卷积使特性通路的总量减零点五,并在压缩路线中接入相应的特性映射。之后有二个3×3卷积,在每个卷积运算之后是一个ReLU。在最后一级,它可以通过1×1卷积法把所有64个分数的特征向量反映到所需要的类数。
卷积神经网络结构中主要是由四个重复结构组成:2个3x3卷积层,非线形ReLU层和一个stride(步长)为2的2×2 max pooling(最大共享)层,在每一个情况下采样后我们都把特点通路的数量增加,而每个重复结构都有二种输出:一个作为编码部分的进行特征提取,一个作为编码部分的特征融合,和编码层同样,反卷积运算中也有四个重复结构组成,但是每次重复结构前必须先使用反卷积运算,每次反卷积运算后特点通路数量减零点五,并且特点图形尺寸增加,反卷积运算之后,将反卷积运算的结果通过与编码部分相应步骤的特点图形拼接出来,但是如果编码部分的特征图形尺寸很大,就必须先经过剪切后再拼接,对拼接后的特征图形再经过2个3×3的卷积,最后一个的卷积核是1×1的卷积核,把六十四通道的特性图转换为特定分类数量的结果。通过卷积神经网络对细节边缘处理的优势,融合了在解码层中引入了编码层中不同深度的特征信息,使得所有尺度下的特征都具有丰富的语义信息,既提高了标注准确率又保护了图像细节。
步骤S5,对图像进行二分类,获得目标图像,实现图像分类。
本发明中的遥感图像数据集包含6种不同类别,分别为道路、建筑、低植被、树木、汽车和背景。将6分类模型转换为6个二分类模型进行处理。对于k(k>2类分类问题,将其中某一类作为一类,其余k-1类视为一类,对每个类别单独训练一个二分类模型(使用二分类标签),从而将k分类问题分解为k个二分类问题。该方法在训练过程中,每个分类器都需要所有的训练样本参与,图像数据集(包含6个类别),把本中的building(建筑)当作一类,并将其标签值设为1,将其余的5类当作一类,类标签设置为0,利用原始训练样本与新的语义标签训练一个二分类器(基于building的分类器)。同理,也可以把剩下的5类中的任何一类看作一类,而把其余类别视为一类,这样依次类推,需建立6个二分类器。
由于测试集中包含了多个类别,而每个二分类器是针对不同类别训练得到的,那么对于测试样本的预测应依次输入到上述建立的6个二分类器中,得到的6张预测图像,叠加合并为1张完整的包含6类的预测图。其中,对图像中每一个类别单独训练一个二分类模型,使用Sigmoid(S型生长曲线)激活函数进行分类,采用对数损失函数为对应的损失函数。对图像进行二分类,有效的改善了多分类分割模型分割图像中的边缘毛刺,使得目标图像边缘更加接近场景的真实边缘。
一种机器视觉图像处理系统,包括:图像采集模块1、图像处理模块2、数据增强模块3、卷积神经网络模块4、图像分类模块5。
图像采集模块1,用于获取RGB图像,并调整其大小;图像处理模块2,用于图像的归一化处理;数据增强模块3,用于将划分的数据进一步的数据增强;卷积神经网络模块4,用于创建卷积神经网络,提取图像特征;图像分类模块5,用于对提取特征的图像进行二分类,获得目标图像。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种机器视觉图像处理方法,其特征在于,包括:
步骤S1,获取图像;
步骤S2,对图像进行归一化处理;
步骤S3,划分数据,引入数据增强,进一步增强训练数据;
步骤S4,创建卷积神经网络,通过编码层对图像进行特征提取,通过解码层网络特征图像映射到原图大小;
步骤S5,对图像进行二分类,获得目标图像,实现图像分类。
2.根据权利要求1所述的一种机器视觉图像处理方法,其特征在于,所述步骤S2中,采用min-max标准化对图像进行归一化处理。
3.根据权利要求1所述的一种机器视觉图像处理方法,其特征在于,所述步骤S3中,通过翻转图像、添加噪声进行图像增强。
4.根据权利要求1所述的一种机器视觉图像处理方法,其特征在于,所述步骤S4中,每一个卷积层后都连接一个激活函数层,所述激活函数采用ReLU函数,如下式所示:
当神经元所得到的对输入信息的累积效应达到了该阈值点时,神经元被激发而保持在活跃状况;否则,它们将陷入抑郁状况,在ReLU中,当x>=0时,激活神经元,当x<0时,不能激活神经元。
5.根据权利要求4所述的一种机器视觉图像处理方法,其特征在于,所述步骤S4中,采用不同大小卷积核相结合,在提升网络深度的同时,对网络提取的特征进行降维。
6.根据权利要求5所述的一种机器视觉图像处理方法,其特征在于,所述步骤S4中,一个所述编码层对应一个所述解码层。
7.根据权利要求6所述的一种机器视觉图像处理方法,其特征在于,所述步骤S4中,最后一个所述解码层后连接一个用于独立的分类每个像素的max pooling层。
8.根据权利要求1所述的一种机器视觉图像处理方法,其特征在于,所述步骤S5中,对图像中每一个类别单独训练一个二分类模型,使用Sigmoid激活函数进行分类,采用对数损失函数为对应的损失函数。
9.一种机器视觉图像处理系统,其特征在于,包括:
图像采集模块,用于获取图像;
图像处理模块,用于图像的归一化处理;
数据增强模块,用于将划分的数据进一步的数据增强;
卷积神经网络模块,用于创建卷积神经网络,提取图像特征;
图像分类模块,用于对提取特征的图像进行二分类,获得目标图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310386224.XA CN116524244A (zh) | 2023-04-12 | 2023-04-12 | 一种机器视觉图像处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310386224.XA CN116524244A (zh) | 2023-04-12 | 2023-04-12 | 一种机器视觉图像处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524244A true CN116524244A (zh) | 2023-08-01 |
Family
ID=87405661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310386224.XA Pending CN116524244A (zh) | 2023-04-12 | 2023-04-12 | 一种机器视觉图像处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524244A (zh) |
-
2023
- 2023-04-12 CN CN202310386224.XA patent/CN116524244A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN113780296B (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN114187450B (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN114694038A (zh) | 基于深度学习的高分辨率遥感影像分类方法及系统 | |
CN114495029B (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN113762396A (zh) | 一种二维图像语义分割方法 | |
CN114283326B (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
CN118314353B (zh) | 一种基于双分支多尺度特征融合的遥感图像分割方法 | |
CN111666953B (zh) | 一种基于语义分割的潮汐带测绘方法及设备 | |
CN117884379A (zh) | 一种矿石分选方法及系统 | |
CN117351360A (zh) | 一种基于注意力机制改进的遥感图像道路提取方法 | |
CN116524244A (zh) | 一种机器视觉图像处理方法及系统 | |
CN116246172A (zh) | 一种基于道路分割和交叉口检测的道路提取方法和系统 | |
CN115424243A (zh) | 基于yolov5-shufflenetv2的车位号码识别方法、设备和介质 | |
CN112215229A (zh) | 基于轻量网络端到端的车牌识别方法及装置 | |
CN116958176B (zh) | 图像分割方法、装置、计算机设备及介质 | |
CN118470333B (zh) | 一种基于遥感图像的地理环境语义分割方法及系统 | |
CN114998609B (zh) | 一种基于密集特征提取与轻量级网络的多类商品目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |