CN112613536A - 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 - Google Patents
一种基于smote和深度学习的近红外光谱柴油牌号识别方法 Download PDFInfo
- Publication number
- CN112613536A CN112613536A CN202011443096.0A CN202011443096A CN112613536A CN 112613536 A CN112613536 A CN 112613536A CN 202011443096 A CN202011443096 A CN 202011443096A CN 112613536 A CN112613536 A CN 112613536A
- Authority
- CN
- China
- Prior art keywords
- diesel
- sample
- smote
- samples
- near infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 29
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 21
- 239000002283 diesel fuel Substances 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000009833 condensation Methods 0.000 claims description 3
- 230000005494 condensation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000004497 NIR spectroscopy Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- -1 O-H Chemical class 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其包括如下步骤:步骤1、绘制柴油近红外光谱图并分析柴油不同牌号的分布情况,对牌号标签进行属性映射,并以柴油的不同牌号作为样本集;步骤2、采用SMOTE对样本集进行数据均衡处理,并将样本集划分为训练集样本和测试集样本;步骤3、用训练集样本构建一维深度卷积神经网络的近红外光谱分类模型;步骤4、将测试集样本带入建好的模型中,获得柴油牌号识别的结果,绘制多分类混淆矩阵,并分析每个类别的识别率。本发明不需要大量的预处理,可以提高分类识别的准确性,并可提高少数类样本的识别率。
Description
技术领域
本发明涉及近红外光谱领域,尤其是一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法。
背景技术
由于高能量密度、低油耗和低价格,石油衍生品柴油在市场中仍占据主导地位。提高柴油的质量和检测精度,以满足柴油市场不断变化的需求,仍然是未来全球石油工业发展的主要方向之一。按照GB/T1.1-2020标准,根据凝点的不同,市售柴油可分为5#、0#、-20#、-35#和-50#共6种牌号。柴油牌号越低,结蜡的可能性越小,价格相对来说越高。一些不法厂商为了牟取利益,柴油掺假、乱贴标签的行为屡见不鲜,这些违规油品的售卖不仅会损坏发动机,还会增加污染排放,甚至危害人身安全。因此,快速准确识别柴油牌号不仅可以为监管部门掌握准确及时的检测数据提供便利,而且对于保障消费者权益和生命安全都具有重要意义。
对于柴油的牌号,如果仅仅从颜色、手感、气味等方面进行鉴别,虽然常用于日常生活中,但无疑是一项费时、费力又主观性强的工作,并且不适合大规模生产检测。近红外光谱法即NIRS,作为一种快速、绿色、成本低、易于操作的无损技术,在石油化工领域已经有很多实际应用的案例。柴油的NIRS包括了复杂混合物中各种烃类(如O-H、C-H和N-H)的特征吸收,想要准确识别柴油牌号绝非易事,需要借助计算机辅助检测。目前常用的辅助模型有偏最小二乘法、支持向量机、人工神经网络等等,由于NIRS的光谱范围广,有用信息强度弱,噪声干扰多且谱峰重叠严重,这些传统的机器学习方法必须结合大量的去噪,特征提取,降维等的前期处理才有可能获得较快的检测速度和较准确的预测结果,这不仅无形中增加了工作量,而且模型的应用性以及预测的准确度也亟待提升。
深度学习是一种深层网络,该技术作为机器学习领域中一个新的研究方向,近年来,在图像处理、语音识别、机器翻译等多个应用领域的发展如火如茶。其中,深度卷积神经网络即DCNN,是应用最为广泛的深度学习模型,它能够自主的从复杂的数据中提取有效特征并进行维数约减,与传统的浅层模型相比,这种端到端的深度学习模型具有更强大的表达能力,然而由于其主要用于处理二维或三维的图像,对于一维的NIRS处理比较少。
发明内容
本发明需要解决的技术问题是提供可以提高分类识别的准确性,并可提高少数类样本的识别率的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其包括如下步骤:
步骤1、绘制柴油近红外光谱图并分析柴油不同牌号的分布情况,对牌号标签进行属性映射,并以柴油的不同牌号作为样本集;
步骤2、采用SMOTE对样本集进行数据均衡处理,并将样本集划分为训练集样本和测试集样本;
步骤3、用训练集样本构建一维深度卷积神经网络的近红外光谱分类模型;
步骤4、将测试集样本带入建好的模型中,获得柴油牌号识别的结果,绘制多分类混淆矩阵,并分析每个类别的识别率。
本发明技术方案的进一步改进在于:利用柴油的样本集来绘制近红外光谱图像,根据柴油的凝点,将样本牌号分为-10#、-20#、-35#、-50#和干扰共5类,分别进行属性映射,映射为类别1、2、3、4和0。
本发明技术方案的进一步改进在于:采用SMOTE对样本集进行数据均衡处理的具体流程如下:
1):首先,对于少数类中的每一个样本x,计算其到少数类样本集中所有样本的欧式距离,得到其k近邻;
2):根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn;
3):对于每一个xn,分别与原样本按照公式<1>构建新的样本;
xnew=x+rand(0,1)×|x-xn|,new∈1,2,…,N <1>
4):最后,重复上述步骤N次,合成N个新样品;如果稀有类共有T个样本,则可以合成NT个新样本。
本发明技术方案的进一步改进在于:构建一维深度卷积神经网络的近红外光谱分类模型的具体方法为:
对一维的近红外光谱数据,进行一些变换,使输入信号可以满足卷积神经网络的要求;将一维近红外光谱认为是仅包含一行或一列的二维图像的特殊集合,光谱信号进行相应的扩维,并将类别标签转换成独热编码的形式;参照LetNet-5构建一维深度卷积神经网络模型,包括输入层、两个卷积层、两个池化层、两个全连接层和输出层。
本发明技术方案的进一步改进在于:卷积层由一组参数可训练的卷积核组成,卷积核的尺寸设置为m×1,一维信号的卷积运算如公式<2>所示:
式中,l为当前的卷积层,l-1则为第(l-1)层卷积层,xi和yj分别代表第i个输入特征图和第j个输出特征图,*是卷积运算符,ωij代表卷积核,b为偏置,f(.)为激活函数的运算。
本发明技术方案的进一步改进在于:在卷积层中引入激活函数PReLU,该函数的表达式如<3>所示。
本发明技术方案的进一步改进在于:池化层的运算如公式<4>所示:
式中,l代表当前池化层,l-1代表第(l-1)池化层,yj为第j个输出特征图,β是乘性偏置项,b为偏置;
池化方法为最大池化法,最大池化法采样方法按照公式<5>计算:
式中,将卷积层得到的一个特征映射划分成多个区域为Xk,k∈1,2,…,K。
本发明技术方案的进一步改进在于:全连接层包括Flatten层和两个Dense层,最后一个Dense层的激活函数为Softmax,并且于全连接层中加入一定比例的随机失活,其中,全连接层按照公式<6>计算:
hω,b(x)=f(ωTx+b) <6>
式中,ω为神经元的权重,b为偏置,T为转置,h(x)为神经元的输出。
本发明技术方案的进一步改进在于:构建好模型之后,配置训练方法;配置的训练方法包括损失函数、优化器和评测指标,其中损失函数具体为交叉熵损失函数,其公式如<7>所示,优化器采用Adam优化,评测指标为准确率A,如公式<8>所示:
式中,ni是预测样本和实际类别相同的个数,n为总样本数。
本发明技术方案的进一步改进在于:基于构建好的一维深度卷积神经网络模型,分别采用经过SMOTE过采样处理后的测试集以及原始测试集进行柴油牌号的预测,获得整体的分类识别率;随后绘制多分类混淆矩阵,并根据混淆矩阵得到精确率、召回率、准确率和平衡F分数如<9>、<10>、<11>、<12>所示:
其中,TP为将正例预测为正例的样本数,FN为将正例预测为反例的样本数,FP为将反例预测为正例的样本数,TN为将反例预测为反例的样本数。
由于采用了上述技术方案,本发明取得的技术进步是:
本发明提出的基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,可以在不需要人工的进行特征提取与降维等复杂操作的前提下,大大提高分类识别的准确性,并且考虑到实际生活中类别样本不均衡的问题,提高少数类样本的识别率。本发明提出的SMOTE和深度学习相结合的模型应用性以及可扩展性强,有助于实现一种基于NIRS的精确度高、操作简单、便携式、快速检测系统的开发。
附图说明
图1是本发明的流程图;
图2是柴油的NIRS图;
图3是原始数据各类别样本数分布图;
图4是经过SMOTE过采样处理后的训练集样本分布图;
图5是基于NIRS的一维深度卷积神经网络分类模型结构图;
图6是训练集损失函数变化图;
图7是训练集准确率变化图;
图8是经SMOTE过采样处理后的训练集多分类混淆矩阵图;
图9是经SMOTE过采样处理后的测试集多分类混淆矩阵图;
图10是原始的测试集多分类混淆矩阵图;
图11是本发明与XGBoost、SVM、BP方法预测准确率对比图。
具体实施方式
下面结合实施例对本发明做进一步详细说明:
参照图1,本发明的具体实施步骤如下:
步骤1,绘制柴油NIRS图并分析柴油不同牌号的分布情况,对牌号标签进行属性映射,并以柴油的不同牌号作为样本集;
在本实施例中,所用的柴油牌号样本集的样本详细信息如表1所示。共有394个样本,对牌号-10#、-20#、-35#、-50#和干扰分别进行属性映射,映射为类别1、2、3、4和0。从表格中可以看出,每个类别的样本数都不同,而且各类别样本分布极其不均匀。
表1.柴油牌号数据集的样本详细信息
其中,柴油的NIRS如图2所示,光谱波长范围在750nm~1550nm,间隔2nm,即共有401个特征波长点。从图中可以看出394个样本堆叠在了一起,无法区分,并且光谱的信息强度弱,干扰多,想要仅凭借NIRS图来实现5个类别的准确区分是完全不可行的,因此,需要采用步骤2的方法来进行数据的均衡处理。
步骤2,采用SMOTE方法对样本集进行数据均衡处理;
首先采用交叉验证法按照7:3的比例自动划分样本集,得到训练集样本275个,测试集样本119个。为了提高模型的泛化能力,解决类别不均衡现象,采用SMOTE过采样技术对训练集样本数据进行均衡处理,SMOTE处理前的各个类别样本分布情况如图3所示,SMOTE处理后的训练集的各个类别样本分布情况如图4所示。处理后每个类别样本数一致,均为184个样本,即训练集样本由原来的275个样本变成了920个样本。为了后期比较,同时采用SMOTE方法对测试集样本进行了不均衡样本的自动生成,生成新的测试集样本共有395个样本。
步骤3,用柴油的训练集样本建立一维深度卷积神经网络的NIRS分类模型;
在本实施例中,基于NIRS的一维深度卷积神经网络分类模型的整体结构如图5所示。具体如下:
步骤3.1:输入层,输入一维柴油NIRS信号,输入形状为(401,1)。
步骤3.2:卷积层,为了配合使用一维深度卷积神经网络,卷积核大小为40*1,卷积核个数为16,步长为1,激活函数为PReLU,PReLU具有收敛速度快、错误率低的特点,又可以有效解决避免梯度消失与梯度爆炸的问题。
步骤3.3:池化层,采用最大池化法,池化窗口大小为3*1,步长为1。
步骤3.4:卷积层,卷积核大小为40*1,卷积核个数为64,步长为1,激活函数为PReLU。
步骤3.5:池化层,采用最大池化法,池化窗口大小为3*1,步长为1。
步骤3.6:Flatten层,把多维的输入一维化,实现到全连接层的过渡。
步骤3.7:Dense层,为了降低模型的过拟合风险,加入比例为0.1的随机失活Dropout,神经元个数为128,激活函数为PReLU。
步骤3.8:Dense层,神经元个数为5,分别对应输出的5个类别,激活函数为Softmax。
步骤3.9:以交叉熵为损失函数,采用Adam优化器,以准确率A为评测指标,设置批处理样本数目为16,对经SMOTE过采样处理后的训练集样本进行训练,得到训练集损失函数的迭代曲线如图6,可以看出随着训练批次的增加,损失值越来越小,最后接近0。训练集评测指标准确率的迭代曲线如图7所示,随着训练批次的增加,训练集准确识别率逐渐增加,最后接近1。从训练结果看,模型的性能比较好,一维深度卷积神经网络的柴油牌号定性分析模型就成功建立了。
在此,需要说明的是:
在步骤3.2和步骤3.4中,卷积层由一组参数可训练的卷积核组成,通过在输入数据上按照特定的规律滑动来进行卷积运算,实现光谱局部抽象特征的提取,对应生成一维的特征图。
在步骤3.3和步骤3.5中,池化层通常用于对卷积运算生成的图进行采样,以减少卷积层中特征向量的维数;在保证特征图的个数不变的前提下,通过缩减数据量,可以大大提高算法的运行速度。
在步骤3.6中,Flatten层用来将数据展平,便于与神经元进行有序的连接。
在步骤3.9中,交叉熵是用来评估当前训练得到的概率分布与真实分布的差异情况,表明实际输出的概率与期望输出的概率之间的距离。
步骤4,将测试集样本带入建好的模型中,获得柴油牌号识别的结果,并绘制多分类混淆矩阵,分析每个类别的识别率。
在本实施例中,首先基于构建好的一维深度卷积神经网络分类模型,利用训练集数据进行分类预测,得到训练集的分类准确率为97.61%;带入经过SMOTE过采样处理后的测试集数据,可得到分类准确率为95.44%;带入原始119个样本的测试集数据,可得分类准确率为95.80%。此时,为了便于观察每个类别的识别率,尤其是少数类样本的识别率,则需要绘制多分类混淆矩阵,多分类混淆矩阵是在传统的二分类混淆矩阵的基础上增加一对一的策略转换而来的,矩阵的行代表数据的真实类别,列代表预测类别。因此主对角线上的数字代表预测结果与实际结果一致的元组数,对角线以外则表示预测错误的元组数。
那么,就可以分别绘制上述三种情况下的多分类混淆矩阵如图8、9和10所示。可以看出不管是训练集还是测试集,每个类别的预测准确率都比较高,对于实际的原始测试集样本,0类别、1类别和4类别这些少数类的样本的准确识别率可高达100%。根据混淆矩阵,按照公式<9>、<10>、<11>和<12>,可求得预测模型的精确率为98.67%,召回率为100%,准确率为95.80%,F1值为0.9933。该模型对于柴油牌号分类的准确率高,泛化能力强。
为了增加说服力,采用XGBoost集成学习方法和SVM、BP神经网络处理相同的柴油NIRS数据集。
具体的,XGBoost的参数设置为如下:树的棵树为196,树的最大深度为5,最小叶子节点权重和1,复杂度控制项gamma=0.15,L1正则项的权重为0.08,L2正则项的权重为0.1,每棵树随机采样的比例subsample=0.71,每棵随机采样的列数的占比colsample_bytree=0.69,学习率为0.1,弱分类器选择“gbtree”,目标函数选择“multi:softmax”,类别数为5,CPU线程数为4。通过模型的构建,可以得出对于原始测试集柴油样本,XGBoost模型牌号分类识别率为75.63%。
SVM的参数设置如下:核参数g和惩罚参数c的范围为[-10,0.2],以RBF为核函数,采用交叉验证网格搜索的方式进行参数寻优。通过模型的构建,可以得出对于原始测试集柴油样本,SVM模型牌号分类识别率为78.99%,该方法运行速度稍慢。
BP神经网络的参数设置如下:输入层节点数为275,隐含层包括9个节点,输出层包括5个节点,利用Softmax将神经网络的输出变成概率分布,然后利用交叉熵作为损失函数,学习率为0.05。通过模型的构建,可以得出对于原始测试集柴油样本,BP模型牌号分类识别率为69.75%,由于传统的BP神经网络层之间所有神经元全部连接,所以模型运行速度也非常慢。
将几种方法的分类结果绘制在图11中,可以明显看出,本发明提出的SMOTE过采样技术结合一维深度卷积神经网络方法可以大大提高柴油牌号的分类识别率。
综上所述,本发明所述SMOTE过采样技术结合一维深度卷积神经网络的方法不仅解决了现实情况中普遍存在的类别样本数失衡的问题,而且避免了传统NIRS建模方法需要繁琐的去噪,特征选择与降维等预处理过程。不仅提高了柴油牌号整体的分类识别率,而且大大提高了少数类别样本的识别率,模型的泛化能力与实际应用性强。实现了利用基于深度学习的NIRS建模柴油牌号智能识别代替繁琐的人工识别,节省了人力物力。并且,该方法在NIRS定性分析领域有很好的应用前景。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (10)
1.一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其特征在于包括如下步骤:
步骤1、绘制柴油近红外光谱图并分析柴油不同牌号的分布情况,对牌号标签进行属性映射,并以柴油的不同牌号作为样本集;
步骤2、采用SMOTE对样本集进行数据均衡处理,并将样本集划分为训练集样本和测试集样本;
步骤3、用训练集样本构建一维深度卷积神经网络的近红外光谱分类模型;
步骤4、将测试集样本带入建好的模型中,获得柴油牌号识别的结果,绘制多分类混淆矩阵,并分析每个类别的识别率。
2.根据权利要求1所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其特征在于:利用柴油的样本集来绘制近红外光谱图像,根据柴油的凝点,将样本牌号分为-10#、-20#、-35#、-50#和干扰共5类,分别进行属性映射,映射为类别1、2、3、4和0。
3.根据权利要求2所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其特征在于:采用SMOTE对样本集进行数据均衡处理的具体流程如下:
1):首先,对于少数类中的每一个样本x,计算其到少数类样本集中所有样本的欧式距离,得到其k近邻;
2):根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn;
3):对于每一个xn,分别与原样本按照公式<1>构建新的样本;
xnew=x+rand(0,1)×|x-xn|,new∈1,2,…,N <1>
4):最后,重复上述步骤N次,合成N个新样品;如果稀有类共有T个样本,则可以合成NT个新样本。
4.根据权利要求3所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其特征在于:构建一维深度卷积神经网络的近红外光谱分类模型的具体方法为:
对一维的近红外光谱数据,进行一些变换,使输入信号可以满足卷积神经网络的要求;将一维近红外光谱认为是仅包含一行或一列的二维图像的特殊集合,光谱信号进行相应的扩维,并将类别标签转换成独热编码的形式;参照LetNet-5构建一维深度卷积神经网络模型,包括输入层、两个卷积层、两个池化层、两个全连接层和输出层。
8.根据权利要求4所述的一种基于SMOTE和深度学习的近红外光谱柴油牌号识别方法,其特征在于:全连接层包括Flatten层和两个Dense层,最后一个Dense层的激活函数为Softmax,并且于全连接层中加入一定比例的随机失活,其中,全连接层按照公式<6>计算:
hω,b(x)=f(ωTx+b) <6>
式中,ω为神经元的权重,b为偏置,T为转置,h(x)为神经元的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443096.0A CN112613536B (zh) | 2020-12-08 | 2020-12-08 | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443096.0A CN112613536B (zh) | 2020-12-08 | 2020-12-08 | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613536A true CN112613536A (zh) | 2021-04-06 |
CN112613536B CN112613536B (zh) | 2024-07-05 |
Family
ID=75232922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011443096.0A Active CN112613536B (zh) | 2020-12-08 | 2020-12-08 | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613536B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298791A (zh) * | 2021-05-31 | 2021-08-24 | 中电福富信息科技有限公司 | 一种基于深度学习的混合卡通的图像检测方法 |
CN113378971A (zh) * | 2021-06-28 | 2021-09-10 | 燕山大学 | 近红外光谱的分类模型训练方法、系统及分类方法、系统 |
CN113505730A (zh) * | 2021-07-26 | 2021-10-15 | 全景智联(武汉)科技有限公司 | 基于海量数据的模型评价方法、装置、设备及存储介质 |
CN113702328A (zh) * | 2021-08-20 | 2021-11-26 | 广东省惠州市石油产品质量监督检验中心 | 一种成品油的性质分析方法、装置、设备及存储介质 |
CN113903407A (zh) * | 2021-09-09 | 2022-01-07 | 中国科学院自动化研究所 | 成分识别方法、装置、电子设备和存储介质 |
CN114202645A (zh) * | 2021-06-29 | 2022-03-18 | 南开大学 | 一种塑料的近红外光谱分类识别精度验证方法 |
CN114659996A (zh) * | 2022-05-19 | 2022-06-24 | 联桥网云信息科技(长沙)有限公司 | 一种基于反射光的高光谱油液检测方法 |
CN114898818A (zh) * | 2022-04-06 | 2022-08-12 | 中国石油大学(北京) | 一种混合原油凝点预测模型训练方法、装置及应用方法 |
CN118503839A (zh) * | 2024-05-09 | 2024-08-16 | 中国矿业大学 | 基于近红外光谱的原油原产地鉴别方法及系统 |
CN118603930A (zh) * | 2024-05-31 | 2024-09-06 | 中国计量科学研究院 | 油品种类定性判别的近红外光谱方法、系统、介质及装置 |
CN118888053A (zh) * | 2024-07-12 | 2024-11-01 | 哈尔滨工业大学 | 一种基于机器学习的沥青油源鉴别模型及自动化实现方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134537A (en) * | 1995-09-29 | 2000-10-17 | Ai Ware, Inc. | Visualization and self organization of multidimensional data through equalized orthogonal mapping |
CN101866428A (zh) * | 2010-07-13 | 2010-10-20 | 中国人民解放军总后勤部油料研究所 | 一种发动机燃料种类和牌号的快速识别方法 |
CN104155245A (zh) * | 2014-07-31 | 2014-11-19 | 中国科学院自动化研究所 | 一种基于模式识别与谱图映射的油品多类性质的检测方法 |
CN106446895A (zh) * | 2016-10-28 | 2017-02-22 | 安徽四创电子股份有限公司 | 一种基于深度卷积神经网络的车牌识别方法 |
CN106845371A (zh) * | 2016-12-31 | 2017-06-13 | 中国科学技术大学 | 一种城市路网机动车尾气排放遥感监控系统 |
CN108647643A (zh) * | 2018-05-11 | 2018-10-12 | 浙江工业大学 | 一种基于深度学习的填料塔液泛状态在线辨识方法 |
US20180299375A1 (en) * | 2015-04-27 | 2018-10-18 | Virtual Fluid Monitoring Services LLC | Fluid analysis and monitoring using optical spectroscopy |
CN109167680A (zh) * | 2018-08-06 | 2019-01-08 | 浙江工商大学 | 一种基于深度学习的流量分类方法 |
AU2019100354A4 (en) * | 2019-04-04 | 2019-05-16 | Chen, Mingjie Mr | An animal image search system based on convolutional neural network |
CN109933539A (zh) * | 2019-04-15 | 2019-06-25 | 燕山大学 | 一种基于主成分分析和组合采样的软件缺陷预测方法 |
CN109992861A (zh) * | 2019-03-21 | 2019-07-09 | 温州大学 | 一种近红外光谱建模方法 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN110443302A (zh) * | 2019-08-02 | 2019-11-12 | 天津相和电气科技有限公司 | 基于特征融合与深度学习的负荷辨识方法及其应用 |
CN110717368A (zh) * | 2018-07-13 | 2020-01-21 | 北京服装学院 | 一种纺织品定性分类方法 |
CN111740971A (zh) * | 2020-06-15 | 2020-10-02 | 郑州大学 | 基于类不平衡处理的网络入侵检测模型sgm-cnn |
CN111860124A (zh) * | 2020-06-04 | 2020-10-30 | 西安电子科技大学 | 基于空谱胶囊生成对抗网络的遥感图像分类方法 |
CN111881987A (zh) * | 2020-07-31 | 2020-11-03 | 西安工业大学 | 基于深度学习的苹果病毒识别方法 |
CN111896495A (zh) * | 2020-08-05 | 2020-11-06 | 安徽大学 | 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统 |
-
2020
- 2020-12-08 CN CN202011443096.0A patent/CN112613536B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134537A (en) * | 1995-09-29 | 2000-10-17 | Ai Ware, Inc. | Visualization and self organization of multidimensional data through equalized orthogonal mapping |
CN101866428A (zh) * | 2010-07-13 | 2010-10-20 | 中国人民解放军总后勤部油料研究所 | 一种发动机燃料种类和牌号的快速识别方法 |
CN104155245A (zh) * | 2014-07-31 | 2014-11-19 | 中国科学院自动化研究所 | 一种基于模式识别与谱图映射的油品多类性质的检测方法 |
US20180299375A1 (en) * | 2015-04-27 | 2018-10-18 | Virtual Fluid Monitoring Services LLC | Fluid analysis and monitoring using optical spectroscopy |
CN106446895A (zh) * | 2016-10-28 | 2017-02-22 | 安徽四创电子股份有限公司 | 一种基于深度卷积神经网络的车牌识别方法 |
CN106845371A (zh) * | 2016-12-31 | 2017-06-13 | 中国科学技术大学 | 一种城市路网机动车尾气排放遥感监控系统 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN108647643A (zh) * | 2018-05-11 | 2018-10-12 | 浙江工业大学 | 一种基于深度学习的填料塔液泛状态在线辨识方法 |
CN110717368A (zh) * | 2018-07-13 | 2020-01-21 | 北京服装学院 | 一种纺织品定性分类方法 |
CN109167680A (zh) * | 2018-08-06 | 2019-01-08 | 浙江工商大学 | 一种基于深度学习的流量分类方法 |
CN109992861A (zh) * | 2019-03-21 | 2019-07-09 | 温州大学 | 一种近红外光谱建模方法 |
AU2019100354A4 (en) * | 2019-04-04 | 2019-05-16 | Chen, Mingjie Mr | An animal image search system based on convolutional neural network |
CN109933539A (zh) * | 2019-04-15 | 2019-06-25 | 燕山大学 | 一种基于主成分分析和组合采样的软件缺陷预测方法 |
CN110443302A (zh) * | 2019-08-02 | 2019-11-12 | 天津相和电气科技有限公司 | 基于特征融合与深度学习的负荷辨识方法及其应用 |
CN111860124A (zh) * | 2020-06-04 | 2020-10-30 | 西安电子科技大学 | 基于空谱胶囊生成对抗网络的遥感图像分类方法 |
CN111740971A (zh) * | 2020-06-15 | 2020-10-02 | 郑州大学 | 基于类不平衡处理的网络入侵检测模型sgm-cnn |
CN111881987A (zh) * | 2020-07-31 | 2020-11-03 | 西安工业大学 | 基于深度学习的苹果病毒识别方法 |
CN111896495A (zh) * | 2020-08-05 | 2020-11-06 | 安徽大学 | 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统 |
Non-Patent Citations (2)
Title |
---|
何东远 等: "基于深度学习的恒星光谱分类", 北京师范大学学报(自然科学版), vol. 56, no. 1, pages 37 - 44 * |
胡薰尹;管业鹏;李伟东;罗宏杰;: "基于紫外可见近红外光谱特征映射矩阵的古陶瓷分类方法", 硅酸盐学报, no. 09, pages 1280 - 1286 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298791A (zh) * | 2021-05-31 | 2021-08-24 | 中电福富信息科技有限公司 | 一种基于深度学习的混合卡通的图像检测方法 |
CN113378971A (zh) * | 2021-06-28 | 2021-09-10 | 燕山大学 | 近红外光谱的分类模型训练方法、系统及分类方法、系统 |
CN113378971B (zh) * | 2021-06-28 | 2024-05-28 | 燕山大学 | 近红外光谱的分类模型训练方法、系统及分类方法、系统 |
CN114202645A (zh) * | 2021-06-29 | 2022-03-18 | 南开大学 | 一种塑料的近红外光谱分类识别精度验证方法 |
CN113505730A (zh) * | 2021-07-26 | 2021-10-15 | 全景智联(武汉)科技有限公司 | 基于海量数据的模型评价方法、装置、设备及存储介质 |
CN113702328A (zh) * | 2021-08-20 | 2021-11-26 | 广东省惠州市石油产品质量监督检验中心 | 一种成品油的性质分析方法、装置、设备及存储介质 |
CN113702328B (zh) * | 2021-08-20 | 2024-05-17 | 广东省惠州市石油产品质量监督检验中心 | 一种成品油的性质分析方法、装置、设备及存储介质 |
CN113903407A (zh) * | 2021-09-09 | 2022-01-07 | 中国科学院自动化研究所 | 成分识别方法、装置、电子设备和存储介质 |
CN114898818A (zh) * | 2022-04-06 | 2022-08-12 | 中国石油大学(北京) | 一种混合原油凝点预测模型训练方法、装置及应用方法 |
CN114659996A (zh) * | 2022-05-19 | 2022-06-24 | 联桥网云信息科技(长沙)有限公司 | 一种基于反射光的高光谱油液检测方法 |
CN118503839A (zh) * | 2024-05-09 | 2024-08-16 | 中国矿业大学 | 基于近红外光谱的原油原产地鉴别方法及系统 |
CN118603930A (zh) * | 2024-05-31 | 2024-09-06 | 中国计量科学研究院 | 油品种类定性判别的近红外光谱方法、系统、介质及装置 |
CN118603930B (zh) * | 2024-05-31 | 2025-06-17 | 中国计量科学研究院 | 油品种类定性判别的近红外光谱方法、系统、介质及装置 |
CN118888053A (zh) * | 2024-07-12 | 2024-11-01 | 哈尔滨工业大学 | 一种基于机器学习的沥青油源鉴别模型及自动化实现方法 |
CN118888053B (zh) * | 2024-07-12 | 2025-05-06 | 哈尔滨工业大学 | 一种基于机器学习的沥青油源鉴别模型及自动化实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112613536B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN111126575B (zh) | 基于机器学习的气体传感器阵列混合气体检测方法及装置 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN101894130B (zh) | 基于稀疏降维的谱哈希索引方法 | |
CN110717368A (zh) | 一种纺织品定性分类方法 | |
CN113191926B (zh) | 基于深度集成学习网络的粮油农作物供应链危害物辨识方法及系统 | |
CN115564996A (zh) | 一种基于注意力联合网络的高光谱遥感图像分类方法 | |
CN112289391B (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
CN101699514B (zh) | 基于免疫克隆量子聚类的sar图像分割方法 | |
CN104392231A (zh) | 基于分块与稀疏主特征提取的快速协同显著性检测方法 | |
CN107133640A (zh) | 基于局部图像块描述子和费舍尔向量的图像分类方法 | |
Li et al. | Adaptive mask sampling and manifold to Euclidean subspace learning with distance covariance representation for hyperspectral image classification | |
CN108763096A (zh) | 基于深度信念网络算法支持向量机的软件缺陷预测方法 | |
CN118799619A (zh) | 一种图片内容批量识别与自动分类归档的方法 | |
CN109344898A (zh) | 基于稀疏编码预训练的卷积神经网络图像分类方法 | |
CN108564116A (zh) | 一种摄像头场景图像的成分智能分析方法 | |
CN117392450A (zh) | 一种基于进化多尺度特征学习的钢铁材料质量解析方法 | |
CN112101574B (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
CN114548212A (zh) | 一种水质评价方法及系统 | |
CN117763316A (zh) | 一种基于机器学习的高维数据降维方法及降维系统 | |
CN114881429B (zh) | 基于数据驱动的台区线损量化方法及系统 | |
CN108509840B (zh) | 基于量子记忆优化机制的高光谱遥感图像波段选择方法 | |
CN109271544B (zh) | 自动挑选画家代表作的方法及装置 | |
CN113139556B (zh) | 基于自适应构图的流形多视图图像聚类方法及系统 | |
CN118522028B (zh) | 结合外观专利图形检索的申请建议方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |