CN107480126B - 一种工程材料类别智能识别方法 - Google Patents
一种工程材料类别智能识别方法 Download PDFInfo
- Publication number
- CN107480126B CN107480126B CN201710554907.6A CN201710554907A CN107480126B CN 107480126 B CN107480126 B CN 107480126B CN 201710554907 A CN201710554907 A CN 201710554907A CN 107480126 B CN107480126 B CN 107480126B
- Authority
- CN
- China
- Prior art keywords
- name
- sample
- category
- test sample
- identification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种工程材料类别智能识别方法,其包括:步骤S1:准备材料训练样本和材料测试样本;步骤S2:对材料测试样本的材料名称进行分词后去除停用词;对材料训练样本进行分词后去重,得到各类别关键词组合名称;步骤S3:计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;根据相似系数选出材料测试样本的候选类别,或者分离出机器算法无法识别的材料测试样本,人工介入识别;步骤S4:筛选出候选类别对应的材料训练样本,并提取特征关键词;步骤S5:使用机器学习分类算法对材料名称进行最终类别确认。本发明结合大数据处理技术与机器学习分类算法,可智能识别材料类别;识别准确、效率较高,成本较低。
Description
技术领域
本发明涉及一种工程材料类别智能识别方法。
背景技术
大数据、云计算等新技术的发展,为工程造价信息化发展带来了新的出路。BIM技术的普及和发展是基于企业核心数据的累积、存储和管理的。工程造价信息化是行业趋势,其核心是人才机价格;工程造价主要由材料价格构成,材价是最复杂、变化最大的因素。实现材价分析和材价预测的前提是对材料进行准确分类;然而现实中材料名称写法多样,不同地区别名叫法不同,加大了材料分类的难度。
目前常用的方法是人工识别材料种类,手动输入材料名称,建立材料词库。
上述方式的缺陷在于:通过人工手动建立工程材料词库和规则库来实现材料类别识别,错误率高、效率低、成本过大。
因此,如何提供一种识别准确、效率较高,成本较低的的工程材料类别智能识别方法成为了业界需要解决的问题。
发明内容
针对现有技术的缺点,本发明的目的是提供一种工程材料类别智能识别方法,其识别准确、效率较高,成本较低。
为了实现上述目的,本发明提供了一种工程材料类别智能识别方法,工程材料类别智能识别方法包括:
步骤S1:准备材料训练样本和材料测试样本;
步骤S2:对材料测试样本的材料名称进行分词后去除停用词;对材料训练样本进行分词后去重,得到各类别关键词组合名称;
步骤S3:计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;根据相似系数选出材料测试样本的候选类别,或者分离出机器算法无法识别的材料测试样本,人工介入识别;
步骤S4:筛选出候选类别对应的材料训练样本,并提取特征关键词;
步骤S5:使用机器学习分类算法对材料名称进行最终类别确认。
本发明结合大数据处理技术与机器学习分类算法,实现了材料类别的智能识别;可自动学习,效率较高;随着材料训练样本不断完善,准确率呈指数增长。
根据本发明另一具体实施方式,步骤S1中,材料测试样本是通过接口或者人工导入的材料数据和待识别类型;材料训练样本是已经被识别类型的材料样本。
本方案中,材料类别以《GB/T 50851-2013建设工程人工材料设备机械数据标准》(简称国标)的二级分类为准;材料训练样本有国标二级分类编码及其对应的材料名称(国标二级分类名称),材料测试样本只有材料名称。
根据本发明另一具体实施方式,步骤S2进一步包括:
步骤S2.1:将材料测试样本中的材料名称进行分词,并与整理好的停用词库中的词汇进行匹配;删除材料名称中的停用词,实现对材料名称的清洗;
步骤S2.2:分别对国标二级分类编码所对应的材料训练样本进行分词处理,并对分词进行去重;留下的词为该类别的关键词,将这些关键词组合成各类别材料组合名称。
本方案中,停用词是指对材料类别识别没有意义的词,也称无效词。
根据本发明另一具体实施方式,步骤S3进一步包括:
步骤S3.1:通过共现相似度算法计算出清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;
步骤S3.2:设定相似系数的阈值为0.3;将相似系数大于0.3的材料训练样本对应的国标二级分类视为材料测试样本的候选类别;将没有大于 0.3的材料训练样本对应的材料测试样本分离出来,进行人工识别。
根据本发明另一具体实施方式,步骤S3.1中,对于材料测试样本A和材料测试样本B,相似系数k的具体计算公式如下:
本方案中,选择相似系数来衡量材料测试样本材料名称与材料训练样本组合名称直接的相似度,这是因为需要了解材料测试样本和材料训练样本的材料名称共同出现的字与材料测试样本出现字的情况。
根据本发明另一具体实施方式,步骤S4中,通过步骤S3选出属于候选类别的所有样本,建立特征关键词和材料文本矩阵,使用信息增益法提取关键特征。
根据本发明另一具体实施方式,信息增益的计算公式如下:
p(ci)表示第i个类别ci出现的概率,p(t)表示关键特征t出现的概率;p(ci/t)表示关键特征t出现时,ci出现的概率;信息增益是衡量特征能够为分类系统带来多少信息的一个重要衡量标准。
根据本发明另一具体实施方式,步骤S5中,工程材料类别智能识别方法选取伯努利模型建立NB分类器(贝叶斯算法);伯努利模型中的特征值表示词组在材料文本中出现或不出现。
本方案中,材料文本为短文本;伯努利模型的贝叶斯分类器适合离散特征的数据分类;伯努利模型中的每个特征取值只能为1或0:若词组在材料文本中出现,特征值标识为1;若词组在材料文本中不出现,特征值标识为0。
根据本发明另一具体实施方式,训练样本有n个特征,分别用 x1,x2……xn表示;则将其划分到类yk的可能性
当特征值为1时,p(xi|yk)=p(xi=1|yk) (4)
当特征值为0时,p(xi|yk)=1-p(xi=1|yk) (5)
本方案中,使用R语言e1071包工具,输入材料训练样本;通过贝叶斯分类方法建立分类模型,再输入材料测试样本,实现材料测试样本的智能识别。
根据本发明另一具体实施方式,工程材料类别智能识别方法进一步包括步骤S6:将识别的材料测试样本加入到材料训练样本。
与现有技术相比,本发明具备如下有益效果:
本发明结合大数据处理技术与机器学习分类算法,实现了材料类别的智能识别;识别准确、效率较高,成本较低。
下面结合附图对本发明作进一步的详细说明。
附图说明
图1是实施例1的工程材料类别智能识别方法的流程示意图。
具体实施方式
实施例1
本实施例提供了一种工程材料类别智能识别方法,如图1所示,其包括:
步骤S1:准备材料训练样本和材料测试样本。
材料测试样本是通过接口或者人工导入的材料数据和待识别类型;材料训练样本是已经被识别类型的材料样本。
材料类别以《GB/T 50851-2013建设工程人工材料设备机械数据标准》 (简称国标)的二级分类为准;材料训练样本有国标二级分类编码及其对应的材料名称(国标二级分类名称),以及《附录A工料机类别及特征》表中另外列举的材料名称;材料测试样本只有材料名称。
材料训练样本包含两列:国标二级编码、材料名称;例如:
0101 钢筋
0101 热轧圆盘条
0101 螺纹钢筋
材料测试样本只包括材料名称,如:900mm阳台凸肚锌钢组合栏杆
步骤S2:对材料测试样本的材料名称进行分词后去除停用词;对材料训练样本进行分词后去重,得到各类别关键词组合名称:
步骤S2.1:将材料测试样本中的材料名称进行分词,并与整理好的停用词库中的词汇进行匹配;删除材料名称中的停用词,实现对材料名称的清洗。
由于从各个来源搜集的材料数据,对应的材料名称命名没有标准的规范,因此材料名称经常会加入一些规格、材质以及品牌系列数据,需对其进行整理。
停用词是指对材料类别识别没有意义的词,也称无效词。停用词表是在普通停用词表的基础上还添加了一些表示材料规格,数量+单位,以及括号为代表的符号等;例如:
三类25对UTP大对数电缆
成品跳板(1m)
清洗后:UTP大对数电缆成品跳板
步骤S2.2:分别对国标二级分类编码所对应的材料训练样本进行分词处理,并对分词进行去重;留下的词为该类别的关键词,将这些关键词组合成各类别材料组合名称。
关键词出现的频率越高,权重越高。
具体实例:
根据以上材料名称分词后得到的关键词组合名称:钢板、热轧、薄、厚、中、镀锌。
步骤S3:计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;根据相似系数选出材料测试样本的候选类别,或者分离出机器算法无法识别的材料测试样本,人工介入识别:
步骤S3.1:通过共现相似度算法计算出清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;对于材料测试样本A和材料测试样本B,相似系数k的具体计算公式如下:
步骤S3.2:设定相似系数的阈值为0.3;将相似系数大于0.3的材料训练样本对应的国标二级分类视为材料测试样本的候选类别;将没有大于 0.3的材料训练样本对应的材料测试样本分离出来,进行人工识别。
具体实例:
测试样本材料名称:钢筋冷拔机
通过共现相似度计算得到候选类别:
0323钢筋接头、锚具及钢筋保护帽;
0101钢筋
……
选择相似系数来衡量材料测试样本材料名称与材料训练样本组合名称直接的相似度,这是因为需要了解材料测试样本和材料训练样本的材料名称共同出现的字与材料测试样本出现字的情况。
步骤S4:筛选出候选类别对应的材料训练样本,并提取特征关键词。
通过步骤S3选出属于候选类别的所有样本,建立特征关键词和材料文本矩阵,使用信息增益法提取关键特征。
信息增益的计算公式如下:
p(ci)表示第i个类别ci出现的概率,p(t)表示关键特征t出现的概率;p(ci/t)表示关键特征t出现时,ci出现的概率;信息增益是衡量特征能够为分类系统带来多少信息的一个重要衡量标准。
具体实例:
根据步骤S3得到候选类别
0101钢筋
0323钢筋接头、锚具及钢筋保护帽;
假如筛选出候选类别所有的材料样本如下:
根据以上数据可知材料总共分为2个类别,n=2。特征有‘钢筋’、‘热轧’、‘圆盘条’、‘螺纹’等。计算特征t为‘钢筋’的信息增益。
p(c1='0101')=3/6
p(c2='0323')=3/6
p(t='钢筋')=3/6
p(c1='0101'|t='钢筋')=2/3
p(c2='0323'|t='钢筋')=1/3
其他特征关键词同理可得。根据各特征IG值进行排序,取前2/3特征关键词作为分类关键词。
步骤S5:使用机器学习分类算法对材料名称进行最终类别确认。
工程材料类别智能识别方法选取伯努利模型建立NB分类器(贝叶斯算法);伯努利模型中的特征值表示词组在材料文本中出现或不出现。
材料文本为短文本;伯努利模型的贝叶斯分类器适合离散特征的数据分类;伯努利模型中的每个特征取值只能为1或0:若词组在材料文本中出现,特征值标识为1;若词组在材料文本中不出现,特征值标识为0。
训练样本有n个特征,分别用x1,x2……xn表示;则将其划分到类yk的可能性
当特征值为1时,p(xi|yk)=p(xi=1|yk) (4)
当特征值为0时,p(xi|yk)=1-p(xi=1|yk) (5)
使用R语言e1071包工具,输入材料训练样本;通过贝叶斯分类方法 (naiveBayes函数,训练集)建立分类模型,再输入材料测试样本,实现材料测试样本的智能识别,并输出识别结果。
步骤S6:将识别的材料测试样本加入到材料训练样本。
虽然本发明以较佳实施例揭露如上,但并非用以限定本发明实施的范围。任何本领域的普通技术人员,在不脱离本发明的发明范围内,当可作些许的改进,即凡是依照本发明所做的同等改进,应为本发明的范围所涵盖。
Claims (6)
1.一种工程材料类别智能识别方法,其中,所述工程材料类别智能识别方法包括:
步骤S1:准备材料训练样本和材料测试样本,材料训练样本包括国标二级编码、材料名称,材料测试样本只有材料名称;
步骤S2:对材料测试样本的材料名称进行分词后去除停用词;对材料训练样本进行分词后去重,得到各类别关键词组合名称;
步骤S3:计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;根据相似系数选出材料测试样本的候选类别,或者分离出机器算法无法识别的材料测试样本,人工介入识别;
步骤S3.1:通过共现相似度算法计算出清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;
对于材料测试样本A和材料测试样本B,相似系数k的具体计算公式如下:
步骤S3.2:设定相似系数的阈值为0.3;将相似系数大于0.3的材料训练样本对应的国标二级分类视为材料测试样本的候选类别;将没有大于0.3的材料训练样本对应的材料测试样本分离出来,进行人工识别;
步骤S4:筛选出候选类别对应的材料训练样本,建立特征关键词和材料文本矩阵,使用信息增益法提取关键特征,提取特征关键词,并取前2/3特征关键词作为分类关键词;
信息增益的计算公式如下:
p(ci)表示第i个类别ci出现的概率,p(t)表示关键特征t出现的概率;p(ci/t)表示关键特征t出现时,ci出现的概率;
步骤S5:使用机器学习分类算法对材料名称进行最终类别确认。
2.如权利要求1所述的工程材料类别智能识别方法,其中,所述步骤S1中,材料测试样本是通过接口或者人工导入的材料数据和待识别类型;材料训练样本是已经被识别类型的材料样本。
3.如权利要求1所述的工程材料类别智能识别方法,其中,所述步骤S2进一步包括:
步骤S2.1:将材料测试样本中的材料名称进行分词,并与整理好的停用词库中的词汇进行匹配;删除材料名称中的停用词,实现对材料名称的清洗;
步骤S2.2:分别对国标二级分类编码所对应的材料训练样本进行分词处理,并对分词进行去重;留下的词为该类别的关键词,将这些关键词组合成各类别材料组合名称。
4.如权利要求1所述的工程材料类别智能识别方法,其中,所述步骤S5中,所述工程材料类别智能识别方法选取伯努利模型并基于贝叶斯算法建立NB分类器;所述伯努利模型中的特征值表示词组在材料文本中出现或不出现。
6.如权利要求1所述的工程材料类别智能识别方法,其中,所述工程材料类别智能识别方法进一步包括步骤S6:将识别的材料测试样本加入到材料训练样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710554907.6A CN107480126B (zh) | 2017-07-10 | 2017-07-10 | 一种工程材料类别智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710554907.6A CN107480126B (zh) | 2017-07-10 | 2017-07-10 | 一种工程材料类别智能识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480126A CN107480126A (zh) | 2017-12-15 |
CN107480126B true CN107480126B (zh) | 2021-04-13 |
Family
ID=60596177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710554907.6A Active CN107480126B (zh) | 2017-07-10 | 2017-07-10 | 一种工程材料类别智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480126B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410005A (zh) * | 2018-10-30 | 2019-03-01 | 北京筑龙信息技术有限责任公司 | 一种查价方法以及查价装置 |
CN109658156A (zh) * | 2018-12-25 | 2019-04-19 | 华联世纪工程咨询股份有限公司 | 一种材料价格测算方法、装置、终端设备及存储介质 |
CN110333886A (zh) * | 2019-07-02 | 2019-10-15 | 上海企创信息科技有限公司 | 一种审核程序迭代更新方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN105404674A (zh) * | 2015-11-20 | 2016-03-16 | 焦点科技股份有限公司 | 一种知识依赖的网页信息抽取方法 |
CN105426358A (zh) * | 2015-11-09 | 2016-03-23 | 中国农业大学 | 一种疾病名词自动识别方法 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098487B2 (en) * | 2012-11-29 | 2015-08-04 | Hewlett-Packard Development Company, L.P. | Categorization based on word distance |
-
2017
- 2017-07-10 CN CN201710554907.6A patent/CN107480126B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN105426358A (zh) * | 2015-11-09 | 2016-03-23 | 中国农业大学 | 一种疾病名词自动识别方法 |
CN105404674A (zh) * | 2015-11-20 | 2016-03-16 | 焦点科技股份有限公司 | 一种知识依赖的网页信息抽取方法 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于朴素贝叶斯的文本分类研究综述;贺鸣 等;《情报科学》;20160731;第34卷(第7期);正文第3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107480126A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
CN109994215A (zh) | 疾病自动编码系统、方法、设备和存储介质 | |
CN109960727B (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN111897953B (zh) | 一种网络媒体平台评论文本分类标注数据纠正方法 | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、系统 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其系统、介质 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
WO2015030112A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
CN105068986B (zh) | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 | |
Al-Azani et al. | Audio-textual Arabic dialect identification for opinion mining videos | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
WO2015118616A1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN112286799A (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN108615124B (zh) | 基于词频分析的企业评价方法及系统 | |
CN107886233B (zh) | 客服的服务质量评价方法和系统 | |
CN111400606B (zh) | 一种基于全局和局部信息抽取的多标签分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 510000 Yuexiu District, Guangzhou City, Guangdong Province, No. 1, No. 1, No. 6-8 Floor, No. 1, Yiguo Houjie, Panfu Road Applicant after: Hualian Century Engineering Consulting Co., Ltd. Address before: 510000 Yuexiu District, Guangzhou City, Guangdong Province, No. 1, No. 1, No. 6-8 Floor, No. 1, Yiguo Houjie, Panfu Road Applicant before: Guangdong Hualian construction investment management Limited by Share Ltd |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |