[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108376261A - 一种基于密度和在线半监督学习烟草分类方法 - Google Patents

一种基于密度和在线半监督学习烟草分类方法 Download PDF

Info

Publication number
CN108376261A
CN108376261A CN201810119422.9A CN201810119422A CN108376261A CN 108376261 A CN108376261 A CN 108376261A CN 201810119422 A CN201810119422 A CN 201810119422A CN 108376261 A CN108376261 A CN 108376261A
Authority
CN
China
Prior art keywords
density
sample
point
data
tobacco
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810119422.9A
Other languages
English (en)
Other versions
CN108376261B (zh
Inventor
夏旻
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201810119422.9A priority Critical patent/CN108376261B/zh
Publication of CN108376261A publication Critical patent/CN108376261A/zh
Application granted granted Critical
Publication of CN108376261B publication Critical patent/CN108376261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于密度和在线半监督学习烟草分类方法,首先利用少量有标签的烟草样本进行初始训练,然后利用一批数量上大于有标签样本数的无标签样本,基于密度和距离筛选有用样本,进行在线学习,因此不断筛选更新,并获得最终的学习模型,最后的模型就可以应用于烟草的分类。本发明相比一般的半监督学习,通过密度和距离的算法增加了一个机选样本的过程,提高了模型的训练效率,运用在线学习提高模型的训练速度和适用性。

Description

一种基于密度和在线半监督学习烟草分类方法
技术领域
本发明属于机器学习领域,是一种基于密度和在线半监督学习,用于烟叶级别的自动分类。
背景技术
烟叶是卷烟的基础材料,烟叶的质量等级直接决定卷烟的品质。而对烟叶进行科学的自动分级一直是烟草研究领域的重点问题之一。国内对烟叶的分级主要还是人工操作,要求繁多,例如挑选人员要求、挑选工艺要求、挑后烟叶标识、存放要求等,其中既有客观要求,又有主观因素。研制出一套完善可用的烟叶等级的自动识别系统将能有效解决这一问题。而鉴别一个烟叶的特征有许多,如图1,例如脉相(主脉、支脉、叶柄),叶形(叶尖、形状),身份(密度、厚度),叶片(叶面、叶片结构、质地)、叶色(浓度、一致性、色域)。
传统的监督学习用大量的有标签样本进行学习训练模型,然后用训练好的模型对无标记样本预测,若任务是分类,那么预测的是类别;如果是回归,预测的就是实数输出。随着数据收集和存储能力的提升,数据采集变得越来越容易,但是这些数据中,仅有极少部分是有标签的样本,其余都是无标签的。若只使用无标记样本,则浪费了有标记样本的有用信息;反之,只使用极少量的有标记样本训练模型,得到的模型很难具有较好的泛化性。获取已标记样本成本昂贵,这致使半监督学习成为近十几年来学者们研究的一个重要话题。
发明内容
本发明为了解决现有技术中存在的问题,提供一种可降低人工操作的主观因素,提高烟叶分级的准确度和效率的基于密度和在线半监督学习算法,实现烟叶的自动分级。
为了达到上述目的,本发明提出的技术方案为:一种基于密度和在线半监督学习烟草分类方法,包括如下步骤:
步骤1、对于一个标准的烟叶数据库U,将其中有标签数据样本记作x,无标签数据样本记作X;并对数据进行预处理;
步骤2、设置网络模型,设有N个有标签数据样本,(xj,tj)表示第j个数据样本的属性和标签,n、L、m分别是网络的输入层节点数、隐层节点数和输出层节点个数,输入层与隐层之间的权重和偏置都随机给定,其中
T是矩阵转置符号,R表示实数矩阵;
那么网络模型为
其中,G(x)是激活函数,是输入层节点与第i个隐层节点之间的输入权重,bi是第i个隐层节点的偏置,是第i个隐层节点与输出层之间的输出权重,oj是网络的输出值;
上述网络模型的损失函数可表示如下
目标函数为:
上式用矩阵表示为
H·β=T
其中H是样本数据对应于隐层节点的输出,β是输出权重,T是样本的期望输出,H、β、T分别定义如下
步骤3、以每个有标签样本xi为一个类中心,在烟草数据库U中筛选出与xi属于一类的点,不断更新H和β;
步骤4、将未分类的样本的数据输入训练好的网络模型,得到的输出即为烟草的级别,从而完成烟草分级。
步骤1中数据预处理的步骤为:
步骤1.1、进行数据归一化,消除数值数量级上的差距;
步骤1.2、将数据库中每个样本数据看作一个点,然后计算任意两点间距离,形成距离矩阵,并确定截断距离dc
步骤1.3、计算样本密度ρ和每个点的相对距离δ;
其中,dij是样本xi和样本xj之间的距离,为待分类数据集,IS={1,2,…,N}为指标集,表示的一个降序排列的下标,即满足:
步骤1.4、选定聚类中心。
步骤3数据库U寻找和xi同一类的点的方法为:计算所有点与xi的距离,并升序排列,记 dist_sort是升序的距离矩阵,orddist是对应点的原始序号,对dist_sort从小到大寻点,对应的点orddist和点xi进行密度对比,找到密度大于xi的点则为和xi同一类的点。
步骤3数据库U寻找和xi同一类的点的方法为:通过对每个点的密度进行降序排列,记 rho_sort为排列后的距离矩阵,ordrho是对应原始序号,然后对所有点进行循环,找到与当前点距离最小的点,若该距离最小的点为xi点,则当前点为和xi同一类的点。
本发明的有益效果为:
本发明技术方案中训练好的模型可以有效的对烟叶进行分级,方便进一步的精细化加工,从而提高烟叶的等级纯度和使用价值,为卷烟生产提供优质原料,有利于贯彻以质论价,优质优价的价格政策。
本发明的技术方案利用少量人工标记的样本,大量无标记的辅助样本,训练高质量的模型,可以减少人工成本和避免人工操作的失误,增加分级的质量,提高工作的效率。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图以及具体实施例对本发明进行详细说明。
实施例
如图1所示,本实施例的烟草分级方法的具体流程为:
对于一个标准的烟叶的数据库U(若干标准特征),其中有标签样本记作x,无标签样本记作X。
步骤1、对烟叶数据库进行预处理;
步骤1.1、若各个样本数值在数量级上有差距,则需要数据归一化,预先进行归一化有助于提高计算速度和学习精度;
步骤1.2、把每个数据看作一个点,然后计算各点间距离矩阵,进而求出局部密度ρ和每个点的相对距离δ,公式如下:
局部密度ρi
其中dij是样本xi和样本xj之间的距离(一般使用欧氏距离),待分类数据集指标集IS={1,2,…,N},参数dc是截断距离,取值太大太小都不行,太大会使得每个数据点的密度都很大致使区分度不高,极端情况就是所有数据点都是同一个类别;如果取得太小,同一个类别可能被分为多个,极端情况就是没一个数据点都单独成为一个类别。如果直接去取值,会很依赖具体问题,所以通过一个比例t来确定截断距离的值,降低该参数对具体问题的依赖性。t的范围锁定在1%-2%内,提高了算法的鲁棒性。满足使得每个数据点的平均邻居数约为总数据个数的1%-2%,邻居是指在截断距离范围内的样本。本实施例中将t设定一个2%的比例,对所有两点间距离进行从小到大排序,通过这个比例确定截断距离dc
本方法使用高斯核的方法获得的ρi是连续值,避免了出现密度值重复的可能,并且距离小于dc的点越多,ρi值越大,越符合要求。
相对距离δi:
表示的一个降序排列的下标,即满足:
那么
则上式的定义是,计算该点到局部密度比该点大的所有点的最小距离,如果该点已经是局部密度最大点,那么δi就取到所有点的最大距离,相对距离δ是用来衡量样本间的相似性。
步骤1.3、选定聚类中心,确定聚类中心目的是根据数据集的类别个数,将数据集分成几类;密度聚类的核心思想就是聚类中心的选择,通过密度ρ为横坐标,距离δ为纵坐标画出决策图,同时具有高ρ和高δ的点才可能是类中心作为聚类中心,且需要满足两个条件:1.自身的局部密度大于周围每个点的密度。2.努力离密度比自己大的点远一点。
步骤2、构建网络结构;初始化网络,设置网络输入层与隐层的输入权值,隐层的偏置权重,隐层节点数,计算隐层和输出层之间的输出权重。
设有N个有标签数据样本,(xj,tj)表示第j个数据样本的属性和标签,n、L、m分别是输入节点数、隐层节点数和输出层节点个数,输入层与隐藏层之间的权重和偏置都随机给定,其中
T是矩阵转置符号,R表示实数矩阵。
那么网络模型的输出是
其中,G(x)是激活函数,一般用Sigmoid函数,是输入层节点与第i 个隐层节点之间的输入权重,bi是第i个隐层节点的偏置,是第i个隐层节点与输出层之间的输出权重,oj是网络的输出值。
损失函数可表示如下
目标就是找到最优的β,使得网络的输出值与实际输出值误差最小,也就是存在ai,bi,βi,使得E=0,即
将上式用矩阵表示为
H·β=T (6)
其中H是样本对应于隐层节点的输出,β是输出权重,T是样本的期望输出,H、β、 T分别定义如下
由于输入层与隐藏层之间的权重和偏置都是随机给定的,所以隐层输出矩阵H也就确定了,那么就是求解一个线性模型。
其中,是隐藏层输出矩阵H的摩尔彭罗斯广义逆。
步骤3、以每个有标签样本xi为类中心,在烟草数据库U中筛选出属于一类的点,不断更新在线模型。
找出所有xj和Xj中可能和xi同一类的点,记retrain。寻找和xi同一类的点,本实施例中可通过两种方法寻找。
其一,就是寻找密度比xi大且距离最近的点,即寻找xi周围一片范围内的中心点。通过计算其他所有点与其的距离,并升序排列,记dist_sort是升序的距离矩阵,orddist是对应点的原始序号,dist_sort从小到大寻点,对应的点orddist和点xi进行密度对比,找到密度大于xi就停止,并存入retrain中。
其二,寻找那些密度比自己大且最近的点恰是xi的点,即以xi为类中心的点。通过对密度进行降序排列,记rho_sort为排列后的距离矩阵,ordrho是对应原始序号。然后对所有点进行循环,因为密度是降序排列,所以会先从密度比自己大的点开始判断,然后找到最小距离的点,并判断是否是xi点,如果是就加入retrain中。最后删除retrain中的类中心点和使用过的点,去除这些点可以提高学习速度。
用上一步获得的模型对retrain进行标签。并更新网络模型,跟新网络模型的具体操作为:
设隐层节点输出权重矩阵的秩与隐层节点数L相等,那么式(9)中的广义逆矩阵可变换为
其中其中IL是单位矩阵,如果是奇异矩阵,那么通过增加在线学习样本或者减少隐层节点数两种方法,使变成非奇异矩阵。根据式(9)和式(10)可得到输出权值矩阵
其中T泛指样本的期望输出,也就是实际的样本类别、级别。
假设初始化时,存在N0个训练样本X0,表示为
为了使得网络的输出值与实际值的误差最小,应对||H0β-T0||进行最小化,其中
其中T0是初始的样本标签矩阵。
通过下式可计算出||H0β-T0||的最小化解:
当新样本进入模型时,N1表示新样本的个数,这时公式就转化成求解最小化解:
其中
其中T1是第一批加入的新样本的标签矩阵。
对两组训练样本X0和X1进行综合考虑,此时的输出权值β的表达式为
其中
为了满足在线学习要求,需要将β(1)的表达变换关于β(0)、K1、H1和T1的表达式,上标(1)表示在线学习阶段学习的次数,其中
因此,式(19)可以进一步写成:
其中,
综合上述分析,当新样本到达时,对最小二乘解的更新类似于一般的递归。假设第K+1 组的样本到达,该数据可表示为
其中,Nk+1表示第K+1组新样本的个数。式(23)的输出权值的表达式变为
其中
式(26)中Tk+1是k+1次加入的样本的标签矩阵,式(25)中,并不是由β(k)计算β(k+1)的Kk+1,利用Woodbury公式可以得到的更新式:
则可得β(k+1)的更新式:
当有新样本进入模型时,根据式(27)和式(30)更新在线模型。
利用上述训练好的模型可以直接将未分类的样本的数据即特征,当作输入,输入上述模型中,模型的网络的输入层节点数、隐层节点数和输出层节点个数已知,输入层与隐层之间的权重和偏置都随机给定,输出权重为上述方法中更新好的,得到的输出就是烟草的级别,这样既可有效的对烟叶进行分级。
本发明的技术方案不局限于上述各实施例,凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

Claims (4)

1.一种基于密度和在线半监督学习烟草分类方法,其特征在于,包括如下步骤:
步骤1、对于一个标准的烟叶数据库U,将其中有标签数据样本记作x,无标签数据样本记作X;并对数据进行预处理;
步骤2、设置网络模型,设有N个有标签数据样本,(xj,tj)表示第j个数据样本的属性和标签,n、L、m分别是网络的输入层节点数、隐层节点数和输出层节点个数,输入层与隐层之间的权重和偏置都随机给定,其中
T是矩阵转置符号,R表示实数矩阵;
那么网络模型为
其中,G(x)是激活函数,是输入层节点与第i个隐层节点之间的输入权重,bi是第i个隐层节点的偏置,是第i个隐层节点与输出层之间的输出权重,oj是网络的输出值;
上述网络模型的损失函数可表示如下
目标函数为:
上式用矩阵表示为
H·β=T
其中H是样本数据对应于隐层节点的输出,β是输出权重,T是样本的期望输出,H、β、T分别定义如下
步骤3、以每个有标签样本xi为一个类中心,在烟草数据库U中筛选出与xi属于一类的点,不断更新H和β;
步骤4、将未分类的样本的数据输入训练好的网络模型,得到的输出即为烟草的级别,从而完成烟草分级。
2.根据权利要求1所述一种基于密度和在线半监督学习烟草分类方法,其特征在于,步骤1中数据预处理的步骤为:
步骤1.1、进行数据归一化,消除数值数量级上的差距;
步骤1.2、将数据库中每个样本数据看作一个点,然后计算任意两点间距离,形成距离矩阵,并确定截断距离dc
步骤1.3、计算样本密度ρ和每个点的相对距离δ;
其中,dij是样本xi和样本xj之间的距离,为待分类数据集,IS={1,2,…,N}为指标集,表示的一个降序排列的下标,即满足:
步骤1.4、选定聚类中心。
3.根据权利要求2所述一种基于密度和在线半监督学习烟草分类方法,其特征在于,步骤3数据库U寻找和xi同一类的点的方法为:计算所有点与xi的距离,并升序排列,记dist_sort是升序的距离矩阵,orddist是对应点的原始序号,对dist_sort从小到大寻点,对应的点orddist和点xi进行密度对比,找到密度大于xi的点则为和xi同一类的点。
4.根据权利要求2所述一种基于密度和在线半监督学习烟草分类方法,其特征在于,步骤3数据库U寻找和xi同一类的点的方法为:通过对每个点的密度进行降序排列,记rho_sort为排列后的距离矩阵,ordrho是对应原始序号,然后对所有点进行循环,找到与当前点距离最小的点,若该距离最小的点为xi点,则当前点为和xi同一类的点。
CN201810119422.9A 2018-02-06 2018-02-06 一种基于密度和在线半监督学习烟草分类方法 Active CN108376261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810119422.9A CN108376261B (zh) 2018-02-06 2018-02-06 一种基于密度和在线半监督学习烟草分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810119422.9A CN108376261B (zh) 2018-02-06 2018-02-06 一种基于密度和在线半监督学习烟草分类方法

Publications (2)

Publication Number Publication Date
CN108376261A true CN108376261A (zh) 2018-08-07
CN108376261B CN108376261B (zh) 2022-03-15

Family

ID=63017464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810119422.9A Active CN108376261B (zh) 2018-02-06 2018-02-06 一种基于密度和在线半监督学习烟草分类方法

Country Status (1)

Country Link
CN (1) CN108376261B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930302A (zh) * 2012-10-18 2013-02-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN103177267A (zh) * 2013-04-22 2013-06-26 山东师范大学 一种时频联合的支持向量机半监督学习方法
US20140037195A1 (en) * 2012-08-03 2014-02-06 Adobe Systems Incorporated Image tag pair graph for image annotation
CN105069479A (zh) * 2015-08-19 2015-11-18 西安电子科技大学 基于在线序列极限学习机的极化sar图像分类方法
CN106446440A (zh) * 2016-10-11 2017-02-22 天津大学 基于在线贯序极限学习机的短期光伏发电功率预测方法
CN107316081A (zh) * 2017-06-12 2017-11-03 大连理工大学 一种基于极限学习机的不确定数据分类方法
CN107508287A (zh) * 2017-08-25 2017-12-22 南方电网科学研究院有限责任公司 电网变电站负荷分群方法、装置、存储介质和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140037195A1 (en) * 2012-08-03 2014-02-06 Adobe Systems Incorporated Image tag pair graph for image annotation
CN102930302A (zh) * 2012-10-18 2013-02-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN103177267A (zh) * 2013-04-22 2013-06-26 山东师范大学 一种时频联合的支持向量机半监督学习方法
CN105069479A (zh) * 2015-08-19 2015-11-18 西安电子科技大学 基于在线序列极限学习机的极化sar图像分类方法
CN106446440A (zh) * 2016-10-11 2017-02-22 天津大学 基于在线贯序极限学习机的短期光伏发电功率预测方法
CN107316081A (zh) * 2017-06-12 2017-11-03 大连理工大学 一种基于极限学习机的不确定数据分类方法
CN107508287A (zh) * 2017-08-25 2017-12-22 南方电网科学研究院有限责任公司 电网变电站负荷分群方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN108376261B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN108876034A (zh) 一种改进的Lasso+RBF神经网络组合预测模型
CN111160750A (zh) 一种基于关联规则挖掘的配网分析和投资决策方法
CN110569982A (zh) 一种基于元学习的主动采样方法
CN110210973A (zh) 基于随机森林与朴素贝叶斯模型的内幕交易识别方法
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN110119448B (zh) 基于双重自动编码器的半监督跨领域文本分类方法
CN109492682A (zh) 一种多分枝随机森林数据分类方法
CN111612519A (zh) 一种识别金融产品潜在客户的方法、装置及存储介质
CN115688613A (zh) 基于多目标蜉蝣算法优化的碳酸盐岩储层渗透率预测方法
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN112785156B (zh) 一种基于聚类与综合评价的产业领袖识别方法
CN108376261B (zh) 一种基于密度和在线半监督学习烟草分类方法
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN110348479A (zh) 一种基于近邻传播的股票预测方法、系统、装置和介质
CN117575745A (zh) 基于ai大数据的课程教学资源个性推荐方法
CN106611181A (zh) 基于代价敏感二维尺度决策树构造方法
CN115983877A (zh) 一种基于深度图和语义学习的专利价值评估方法
CN115841269A (zh) 一种基于多维指标分析的期刊动态评价方法
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN113033683B (zh) 一种基于静态与动态联合分析的工业系统工况监测方法和系统
CN109829500B (zh) 一种职位构图和自动聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant