CN107480126B

CN107480126B - 一种工程材料类别智能识别方法

Info

Publication number: CN107480126B
Application number: CN201710554907.6A
Authority: CN
Inventors: 尹绍青; 查世伟; 李惠君; 陈宁; 王云祥; 黄宁; 胡焱; 陈玉辉; 黄文妙; 钟琳
Original assignee: Hualian Century Engineering Consulting Co ltd
Current assignee: Hualian Century Engineering Consulting Co ltd
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2021-04-13
Anticipated expiration: 2037-07-10
Also published as: CN107480126A

Abstract

本发明提供了一种工程材料类别智能识别方法，其包括：步骤S1：准备材料训练样本和材料测试样本；步骤S2：对材料测试样本的材料名称进行分词后去除停用词；对材料训练样本进行分词后去重，得到各类别关键词组合名称；步骤S3：计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数；根据相似系数选出材料测试样本的候选类别，或者分离出机器算法无法识别的材料测试样本，人工介入识别；步骤S4：筛选出候选类别对应的材料训练样本，并提取特征关键词；步骤S5：使用机器学习分类算法对材料名称进行最终类别确认。本发明结合大数据处理技术与机器学习分类算法，可智能识别材料类别；识别准确、效率较高，成本较低。

Description

一种工程材料类别智能识别方法

技术领域

本发明涉及一种工程材料类别智能识别方法。

背景技术

大数据、云计算等新技术的发展，为工程造价信息化发展带来了新的出路。BIM技术的普及和发展是基于企业核心数据的累积、存储和管理的。工程造价信息化是行业趋势，其核心是人才机价格；工程造价主要由材料价格构成，材价是最复杂、变化最大的因素。实现材价分析和材价预测的前提是对材料进行准确分类；然而现实中材料名称写法多样，不同地区别名叫法不同，加大了材料分类的难度。

目前常用的方法是人工识别材料种类，手动输入材料名称，建立材料词库。

上述方式的缺陷在于：通过人工手动建立工程材料词库和规则库来实现材料类别识别，错误率高、效率低、成本过大。

因此，如何提供一种识别准确、效率较高，成本较低的的工程材料类别智能识别方法成为了业界需要解决的问题。

发明内容

针对现有技术的缺点，本发明的目的是提供一种工程材料类别智能识别方法，其识别准确、效率较高，成本较低。

为了实现上述目的，本发明提供了一种工程材料类别智能识别方法，工程材料类别智能识别方法包括：

步骤S1：准备材料训练样本和材料测试样本；

步骤S2：对材料测试样本的材料名称进行分词后去除停用词；对材料训练样本进行分词后去重，得到各类别关键词组合名称；

步骤S3：计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数；根据相似系数选出材料测试样本的候选类别，或者分离出机器算法无法识别的材料测试样本，人工介入识别；

步骤S4：筛选出候选类别对应的材料训练样本，并提取特征关键词；

步骤S5：使用机器学习分类算法对材料名称进行最终类别确认。

本发明结合大数据处理技术与机器学习分类算法，实现了材料类别的智能识别；可自动学习，效率较高；随着材料训练样本不断完善，准确率呈指数增长。

根据本发明另一具体实施方式，步骤S1中，材料测试样本是通过接口或者人工导入的材料数据和待识别类型；材料训练样本是已经被识别类型的材料样本。

本方案中，材料类别以《GB/T 50851－2013建设工程人工材料设备机械数据标准》(简称国标)的二级分类为准；材料训练样本有国标二级分类编码及其对应的材料名称(国标二级分类名称)，材料测试样本只有材料名称。

根据本发明另一具体实施方式，步骤S2进一步包括：

步骤S2.1：将材料测试样本中的材料名称进行分词，并与整理好的停用词库中的词汇进行匹配；删除材料名称中的停用词，实现对材料名称的清洗；

步骤S2.2：分别对国标二级分类编码所对应的材料训练样本进行分词处理，并对分词进行去重；留下的词为该类别的关键词，将这些关键词组合成各类别材料组合名称。

本方案中，停用词是指对材料类别识别没有意义的词，也称无效词。

根据本发明另一具体实施方式，步骤S3进一步包括：

步骤S3.1：通过共现相似度算法计算出清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数；

步骤S3.2：设定相似系数的阈值为0.3；将相似系数大于0.3的材料训练样本对应的国标二级分类视为材料测试样本的候选类别；将没有大于 0.3的材料训练样本对应的材料测试样本分离出来，进行人工识别。

根据本发明另一具体实施方式，步骤S3.1中，对于材料测试样本A和材料测试样本B，相似系数k的具体计算公式如下：

本方案中，选择相似系数来衡量材料测试样本材料名称与材料训练样本组合名称直接的相似度，这是因为需要了解材料测试样本和材料训练样本的材料名称共同出现的字与材料测试样本出现字的情况。

根据本发明另一具体实施方式，步骤S4中，通过步骤S3选出属于候选类别的所有样本，建立特征关键词和材料文本矩阵，使用信息增益法提取关键特征。

根据本发明另一具体实施方式，信息增益的计算公式如下：

p(c_i)表示第i个类别c_i出现的概率，p(t)表示关键特征t出现的概率；p(c_i/t)表示关键特征t出现时，c_i出现的概率；信息增益是衡量特征能够为分类系统带来多少信息的一个重要衡量标准。

根据本发明另一具体实施方式，步骤S5中，工程材料类别智能识别方法选取伯努利模型建立NB分类器(贝叶斯算法)；伯努利模型中的特征值表示词组在材料文本中出现或不出现。

本方案中，材料文本为短文本；伯努利模型的贝叶斯分类器适合离散特征的数据分类；伯努利模型中的每个特征取值只能为1或0：若词组在材料文本中出现，特征值标识为1；若词组在材料文本中不出现，特征值标识为0。

根据本发明另一具体实施方式，训练样本有n个特征，分别用 x₁,x₂……x_n表示；则将其划分到类y_k的可能性

当特征值为1时，p(x_i|y_k)＝p(x_i＝1|y_k) (4)

当特征值为0时，p(x_i|y_k)＝1-p(x_i＝1|y_k) (5)

本方案中，使用R语言e1071包工具，输入材料训练样本；通过贝叶斯分类方法建立分类模型，再输入材料测试样本，实现材料测试样本的智能识别。

根据本发明另一具体实施方式，工程材料类别智能识别方法进一步包括步骤S6：将识别的材料测试样本加入到材料训练样本。

与现有技术相比，本发明具备如下有益效果：

本发明结合大数据处理技术与机器学习分类算法，实现了材料类别的智能识别；识别准确、效率较高，成本较低。

下面结合附图对本发明作进一步的详细说明。

附图说明

图1是实施例1的工程材料类别智能识别方法的流程示意图。

具体实施方式

实施例1

本实施例提供了一种工程材料类别智能识别方法，如图1所示，其包括：

步骤S1：准备材料训练样本和材料测试样本。

材料测试样本是通过接口或者人工导入的材料数据和待识别类型；材料训练样本是已经被识别类型的材料样本。

材料类别以《GB/T 50851－2013建设工程人工材料设备机械数据标准》 (简称国标)的二级分类为准；材料训练样本有国标二级分类编码及其对应的材料名称(国标二级分类名称)，以及《附录A工料机类别及特征》表中另外列举的材料名称；材料测试样本只有材料名称。

材料训练样本包含两列：国标二级编码、材料名称；例如：

0101 钢筋

0101 热轧圆盘条

0101 螺纹钢筋

材料测试样本只包括材料名称，如：900mm阳台凸肚锌钢组合栏杆

步骤S2：对材料测试样本的材料名称进行分词后去除停用词；对材料训练样本进行分词后去重，得到各类别关键词组合名称：

步骤S2.1：将材料测试样本中的材料名称进行分词，并与整理好的停用词库中的词汇进行匹配；删除材料名称中的停用词，实现对材料名称的清洗。

由于从各个来源搜集的材料数据，对应的材料名称命名没有标准的规范，因此材料名称经常会加入一些规格、材质以及品牌系列数据，需对其进行整理。

停用词是指对材料类别识别没有意义的词，也称无效词。停用词表是在普通停用词表的基础上还添加了一些表示材料规格，数量+单位，以及括号为代表的符号等；例如：

三类25对UTP大对数电缆

成品跳板(1m)

清洗后：UTP大对数电缆成品跳板

关键词出现的频率越高，权重越高。

具体实例：

根据以上材料名称分词后得到的关键词组合名称：钢板、热轧、薄、厚、中、镀锌。

步骤S3：计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数；根据相似系数选出材料测试样本的候选类别，或者分离出机器算法无法识别的材料测试样本，人工介入识别：

步骤S3.1：通过共现相似度算法计算出清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数；对于材料测试样本A和材料测试样本B，相似系数k的具体计算公式如下：

具体实例：

测试样本材料名称：钢筋冷拔机

通过共现相似度计算得到候选类别：

0323钢筋接头、锚具及钢筋保护帽；

0101钢筋

……

选择相似系数来衡量材料测试样本材料名称与材料训练样本组合名称直接的相似度，这是因为需要了解材料测试样本和材料训练样本的材料名称共同出现的字与材料测试样本出现字的情况。

步骤S4：筛选出候选类别对应的材料训练样本，并提取特征关键词。

通过步骤S3选出属于候选类别的所有样本，建立特征关键词和材料文本矩阵，使用信息增益法提取关键特征。

信息增益的计算公式如下：

具体实例：

根据步骤S3得到候选类别

0101钢筋

0323钢筋接头、锚具及钢筋保护帽；

假如筛选出候选类别所有的材料样本如下：

根据以上数据可知材料总共分为2个类别，n＝2。特征有‘钢筋’、‘热轧’、‘圆盘条’、‘螺纹’等。计算特征t为‘钢筋’的信息增益。

p(c₁＝'0101')＝3/6

p(c₂＝'0323')＝3/6

p(t＝'钢筋')＝3/6

p(c₁＝'0101'|t＝'钢筋')＝2/3

p(c₂＝'0323'|t＝'钢筋')＝1/3

其他特征关键词同理可得。根据各特征IG值进行排序，取前2/3特征关键词作为分类关键词。

工程材料类别智能识别方法选取伯努利模型建立NB分类器(贝叶斯算法)；伯努利模型中的特征值表示词组在材料文本中出现或不出现。

材料文本为短文本；伯努利模型的贝叶斯分类器适合离散特征的数据分类；伯努利模型中的每个特征取值只能为1或0：若词组在材料文本中出现，特征值标识为1；若词组在材料文本中不出现，特征值标识为0。

训练样本有n个特征，分别用x₁,x₂……x_n表示；则将其划分到类y_k的可能性

当特征值为1时，p(x_i|y_k)＝p(x_i＝1|y_k) (4)

当特征值为0时，p(x_i|y_k)＝1-p(x_i＝1|y_k) (5)

使用R语言e1071包工具，输入材料训练样本；通过贝叶斯分类方法 (naiveBayes函数，训练集)建立分类模型，再输入材料测试样本，实现材料测试样本的智能识别，并输出识别结果。

步骤S6：将识别的材料测试样本加入到材料训练样本。

虽然本发明以较佳实施例揭露如上，但并非用以限定本发明实施的范围。任何本领域的普通技术人员，在不脱离本发明的发明范围内，当可作些许的改进，即凡是依照本发明所做的同等改进，应为本发明的范围所涵盖。

Claims

1.一种工程材料类别智能识别方法，其中，所述工程材料类别智能识别方法包括：

步骤S1：准备材料训练样本和材料测试样本，材料训练样本包括国标二级编码、材料名称，材料测试样本只有材料名称；

对于材料测试样本A和材料测试样本B，相似系数k的具体计算公式如下：

步骤S3.2：设定相似系数的阈值为0.3；将相似系数大于0.3的材料训练样本对应的国标二级分类视为材料测试样本的候选类别；将没有大于0.3的材料训练样本对应的材料测试样本分离出来，进行人工识别；

步骤S4：筛选出候选类别对应的材料训练样本，建立特征关键词和材料文本矩阵，使用信息增益法提取关键特征，提取特征关键词，并取前2/3特征关键词作为分类关键词；

信息增益的计算公式如下：

p(c_i)表示第i个类别c_i出现的概率，p(t)表示关键特征t出现的概率；p(c_i/t)表示关键特征t出现时，c_i出现的概率；

2.如权利要求1所述的工程材料类别智能识别方法，其中，所述步骤S1中，材料测试样本是通过接口或者人工导入的材料数据和待识别类型；材料训练样本是已经被识别类型的材料样本。

3.如权利要求1所述的工程材料类别智能识别方法，其中，所述步骤S2进一步包括：

4.如权利要求1所述的工程材料类别智能识别方法，其中，所述步骤S5中，所述工程材料类别智能识别方法选取伯努利模型并基于贝叶斯算法建立NB分类器；所述伯努利模型中的特征值表示词组在材料文本中出现或不出现。

5.如权利要求4所述的工程材料类别智能识别方法，其中，训练样本有n个特征，分别用x₁,x₂……x_n表示；则将其划分到类y_k的可能性

当特征值为1时，p(x_i|y_k)＝p(x_i＝1|y_k) (4)

当特征值为0时，p(x_i|y_k)＝1-p(x_i＝1|y_k) (5)。

6.如权利要求1所述的工程材料类别智能识别方法，其中，所述工程材料类别智能识别方法进一步包括步骤S6：将识别的材料测试样本加入到材料训练样本。