CN117235647A - 基于边缘计算的矿产资源勘查业务hse数据管理方法 - Google Patents
基于边缘计算的矿产资源勘查业务hse数据管理方法 Download PDFInfo
- Publication number
- CN117235647A CN117235647A CN202311457629.4A CN202311457629A CN117235647A CN 117235647 A CN117235647 A CN 117235647A CN 202311457629 A CN202311457629 A CN 202311457629A CN 117235647 A CN117235647 A CN 117235647A
- Authority
- CN
- China
- Prior art keywords
- data
- data points
- isolated
- data point
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 229910052500 inorganic mineral Inorganic materials 0.000 title claims abstract description 61
- 239000011707 mineral Substances 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013523 data management Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 title claims abstract description 12
- 238000011835 investigation Methods 0.000 title description 4
- 230000002159 abnormal effect Effects 0.000 claims abstract description 106
- 238000002955 isolation Methods 0.000 claims abstract description 60
- 238000012216 screening Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 50
- 238000010276 construction Methods 0.000 claims description 3
- 239000002689 soil Substances 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 230000036541 health Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及用于HSE数据管理的数据处理技术领域,具体涉及基于边缘计算的矿产资源勘查业务HSE数据管理方法,包括:采集矿产资源勘查环境的HSE数据,得到多个数据点,边缘节点根据所有数据点构建多个多叉孤立树,根据每个数据点在每个多叉孤立树中出现的位置获取数据点在多叉孤立树中的异常概率,获取每个数据点在多叉孤立树中的孤立叶节点,根据所述孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重,根据每个数据点在所有多叉孤立树中的异常概率以及异常权重获取数据点的异常分值,根据异常分值筛选异常数据点,云端根据异常数据点分析矿产资源勘查中的异常情况。本发明提高了矿产资源勘查中异常情况识别的效率以及准确性。
Description
技术领域
本发明涉及用于矿产资源勘查技术研发的HSE数据管理技术领域,具体涉及基于边缘计算的矿产资源勘查业务HSE数据管理方法。
背景技术
HSE数据是健康、安全、环境相关的数据。在矿产资源勘查技术研发中,采集矿产资源勘查环境中的数据可以保障矿产资源勘查过程中劳动者的健康与安全,同时加快矿产资源勘查的进度。
为保证矿产资源勘查过程中劳动者的健康与安全,云端需要及时对采集的矿产资源勘查环境中的HSE数据进行分析,识别异常情况。但由于云端处理数据量大,因此通过边缘节点进行边缘计算,实现矿产资源勘查环境中的HSE数据的预处理,加快云端识别异常情况的速度。
目前通常通过构建孤立森林来识别异常数据,但孤立森林中的孤立树为二叉树,孤立树中每个节点仅随机一个分割阈值对数据点进行划分,需要多次迭代,效率慢。同时由于单阈值的随机性,可能会导致真正异常的数据点被漏识别,影响云端对矿产资源勘查过程中异常分析的及时性以及准确性。
发明内容
为了解决上述问题,本发明提供基于边缘计算的矿产资源勘查业务HSE数据管理方法,该方法包括以下步骤:
采集矿产资源勘查环境的HSE数据,得到多个数据点;
边缘节点根据所有数据点构建多个多叉孤立树;根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率;获取每个数据点在每个多叉孤立树中的孤立叶节点,根据所述孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重;根据每个数据点在所有多叉孤立树中的异常概率以及异常权重获取每个数据点的异常分值;根据异常分值筛选异常数据点;
云端根据异常数据点分析矿产资源勘查中的异常情况。
优选的,所述多叉孤立树的构建方法为:
将所有数据点共同作为树的根节点;
在所有维度中随机选取一个维度作为第一分割维度,随机设置第一个分割维度的多个分割条件,对根节点中所有数据点的第一分割维度按照第一分割维度的每个分割条件分别进行划分,将所有数据点划分为多类数据点,将每类数据点作为根节点的一个子节点;
在除第一分割维度之外的所有维度中随机选择一个维度作为第二分割维度;对于树中包含数据点个数大于1的每个叶节点,为叶节点随机设置第二个分割维度的多个分割条件,对叶节点中所有数据点的第二分割维度按照第二分割维度的每个分割条件分别进行划分,将叶节点中所有数据点划分为多类数据点,将每类数据点作为叶节点的一个子节点;
依次类推,直到遍历完所有维度后停止迭代,将此时的树作为一个多叉孤立树。
优选的,所述随机设置第一个分割维度的多个分割条件,包括的具体步骤如下:
获取根节点中所有数据点的第一分割维度的最大值和最小值,在最大值和最小值构成的区间范围中随机选择多个子区间,选择的子区间之间可互相重叠,且选择的子区间中至少有一个子区间的左边界需为根节点中所有数据点的第一分割维度的最小值,至少有一个子区间的右边界需为根节点中所有数据点的第一分割维度的最大值;将每个子区间分别作为第一分割维度的一个分割条件。
优选的,所述根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率,包括的具体步骤如下:
其中,pij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常概率,j取遍[1,J]中每个整数,J表示所有数据点的数量,i取遍[1,M]中每个整数,M表示多叉孤立树的数量;sij表示第i个多叉孤立树中包含第j个数据点的叶节点的数量;bijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点中包含的数据点的数量;Bijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点的父节点中包含的数据点的数量;tijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点的层数;Ti表示第i个多叉孤立树的深度;exp()表示以自然常数为底的指数函数。
优选的,所述获取每个数据点在每个多叉孤立树中的孤立叶节点,包括的具体步骤如下:
对于每个数据点,获取多叉孤立树中只包含该数据点的叶节点,作为该数据点的孤立叶节点。
优选的,所述根据所述孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重,包括的具体步骤如下:
根据数据点的孤立叶节点获取孤立叶节点组;
根据孤立叶节点组获取每个数据点在每个多叉孤立树中的异常权重:
其中,wij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常权重,j取遍[1,J]中每个整数,J表示所有数据点的数量,i取遍[1,M]中每个整数,M表示多叉孤立树的数量;Dij表示所有数据点中第j个数据点在第i个多叉孤立树中对应的孤立叶节点组的数量;lijd表示所有数据点中第j个数据点在第i个多叉孤立树中对应的第d个孤立叶节点组中两个孤立叶节点对应的分割条件的并集大小;Lijd表示所有数据点中第j个数据点在第i个多叉孤立树中对应的第d个孤立叶节点组所在层级所有节点对应的分割条件的并集大小;nij表示所有数据点中第j个数据点在第i个多叉孤立树中对应的孤立叶节点的数量;sij表示第i个多叉孤立树中包含第j个数据点的叶节点的数量;α为超参数。
优选的,所述根据数据点的孤立叶节点获取孤立叶节点组,包括的具体步骤如下:
若数据点在多叉孤立树中的两个孤立叶节点处于多叉孤立树的同一个层级,则将此两个孤立叶节点作为一个孤立叶节点组。
优选的,所述根据每个数据点在所有多叉孤立树中的异常概率以及异常权重获取每个数据点的异常分值,包括的具体步骤如下:
其中,Qj表示所有数据点中第j个数据点的异常分值,j取遍[1,J]中每个整数,J表示所有数据点的数量;wij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常权重;pij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常概率;M表示多叉孤立树的数量。
优选的,所述根据异常分值筛选异常数据点,包括的具体步骤如下:
预设异常阈值,当数据点的异常分值大于异常阈值时,将数据点作为异常数据点。
优选的,所述采集矿产资源勘查环境的HSE数据,得到多个数据点,包括的具体步骤如下:
在矿产资源勘查现场设置多个数据采集点,在每个数据采集点通过传感器采集矿产资源勘查环境的HSE数据,包括矿产资源勘查环境中的空气质量、水质、土壤质量以及噪声;将每个采集点采集的矿产资源勘查环境的HSE数据作为一个数据点。
本发明的技术方案的有益效果是:本发明根据所有数据点构建多个多叉孤立树,相较于传统的二叉孤立树迭代次数少,效率高,提高了矿产资源勘查中异常识别的效率,由于传统的二叉孤立树中单阈值的随机性,可能会导致真正异常的数据点被漏识别,本发明的多叉孤立树设置多个分割条件进行划分,降低了真正异常的数据点被漏识别的可能性,提高了矿产按资源勘查中异常识别的准确性。本发明根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率,根据每个数据点在多叉孤立树中的孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重,结合异常概率以及异常权重获取每个数据点的异常分值,相较于传统的二叉孤立树仅利用数据点在二叉树孤立树中的位置获取异常分值,本发明得到的结果更加能反映数据点的孤立特性,根据异常分值筛选出的异常数据点更加准确,进一步提高了矿产按资源勘查中异常识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于边缘计算的矿产资源勘查业务HSE数据管理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于边缘计算的矿产资源勘查业务HSE数据管理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于边缘计算的矿产资源勘查业务HSE数据管理方法的步骤流程图,该方法包括以下步骤:
S001.采集矿产资源勘查环境的HSE数据。
在矿产资源勘查现场设置多个数据采集点,在每个数据采集点通过传感器采集矿产资源勘查环境的HSE数据,包括矿产资源勘查环境中的空气质量、水质、土壤质量、噪声等。每个采集点采集的矿产资源勘查环境的HSE数据包含了多个维度的数据。
至此,实现了矿产资源勘查环境的HSE数据的采集。
S002.根据矿产资源勘查环境的HSE数据构建多个多叉孤立树。
将每个采集点的采集的矿产资源勘查环境的HSE数据传输至与采集点的传感器相连的边缘节点。每个采集点的采集的矿产资源勘查环境的HSE数据包含多个维度的信息,可将每个采集点的采集的矿产资源勘查环境的HSE数据看作一个数据点,边缘节点对所有数据点进行异常分析。
在本发明实施例中,预设第一数量M以及第二数量N,第一数量用来限制构建的多叉孤立树的数目,第二数量用来限制每个多叉孤立树构建过程中的分割条件数目,对N和M的取值具体不做限定,实施人员可根据具体实施情况设置第一数量和第二数量,例如M=10、N=5。
构建多叉孤立树的具体过程如下:
将所有数据点共同作为树的根节点。
在所有维度中随机选取一个维度作为第一分割维度,获取根节点中所有数据点的第一分割维度的最大值和最小值,在最大值和最小值构成的区间范围中随机选择N个子区间,分别作为第一分割维度的分割条件,此N个子区间之间可互相重叠,为了确保根据N个分割条件可对根节点中任意一个数据点进行划分,随机选择的N个子区间中至少有一个子区间的左边界需为根节点中所有数据点的第一分割维度的最小值,至少有一个子区间的右边界需为根节点中所有数据点的第一分割维度的最大值。
对根节点中所有数据点的第一分割维度按照第一分割维度的N个分割条件进行划分,将所有数据点划分为N类数据点,将每类数据点作为根节点的一个子节点。需要说明的是,由于子区间之间可互相重叠,因此在对所有数据点按照第一分割维度的N个分割条件进行划分时,部分数据点可能属于多个类别,由于可能存在所有数据点都不满足某个分割条件,因此可能存在某个类别为空的情况,此时为空的类别不作为根节点的一个子节点。例如所有数据点的第一分割维度分别为{201,189,19,220,221,208,230}时,第一分割维度的最大值和最小值构成的区间范围为[19,230],随机选择5个子区间[19,128],[19,28],[78,210],[176,230],[101,230]分别作为一个分割条件,则按照分割条件[19,128]得到的类别仅包含第一分割维度的值为19的数据点,按照分割条件[19,28]得到的类别仅包含第一分割维度的值为19的数据点,按照分割条件[78,210]得到的类别为第一分割维度的值为{201,189,208}的数据点,按照分割条件[176,230]得到的类别为第一分割维度的值为{201,189,220,221,208,230}的数据点,按照分割条件[101,230]得到的类别为第一分割维度的值为{201,189,220,221,208,230}的数据点。
在除第一分割维度之外的所有维度中随机选择一个维度作为第二分割维度。对于树中包含数据点个数大于1的每个叶节点,获取叶节点中所有数据点的第二分割维度的最大值和最小值,在最大值和最小值构成的区间范围中随机选择N个子区间,分别作为该叶节点对应的第二分割维度的分割条件,此N个子区间之间可互相重叠,随机选择的N个子区间中至少有一个子区间的左边界需为该叶节点中所有数据点的第二分割维度的最小值,至少有一个子区间的右边界需为该叶节点中所有数据点的第二分割维度的最大值。对该叶节点中所有数据点的第二分割维度按照第二分割维度的N个分割条件进行划分,将叶节点中所有数据点划分为N类数据点,将每类数据点作为该叶节点的一个子节点,此时该叶节点由于有了子节点而从叶节点转换为父节点。
同理,在除第一分割维度、第二分割维度之外的所有维度中随机选择一个维度作为第三分割维度。对于树中包含数据点个数大于1的每个叶节点,获取叶节点中所有数据点的第三分割维度的最大值和最小值,在最大值和最小值构成的区间范围中随机选择N个子区间,分别作为该叶节点对应的第三分割维度的分割条件,此N个子区间之间可互相重叠,随机选择的N个子区间中至少有一个子区间的左边界需为该叶节点中所有数据点的第三分割维度的最小值,至少有一个子区间的右边界需为该叶节点中所有数据点的第三分割维度的最大值。对该叶节点中所有数据点的第三分割维度按照第三分割维度的N个分割条件进行划分,将叶节点中所有数据点划分为N类数据点,将每类数据点作为该叶节点的一个子节点,此时该叶节点由于有了子节点而从叶节点转换为父节点。
依次类推,直到遍历完所有维度后停止迭代,将此时的树作为一个多叉孤立树。
构建M个多叉孤立树,组成多叉孤立森林,由于构建多叉孤立树的过程中维度以及每个维度的分割条件选择的随机性,使得构建的多叉孤立树不相同。
至此,实现了多叉孤立森林的构建,得到了多个多叉孤立树。
S003.根据多叉孤立树获取每个数据点的异常分值。
需要说明的是,在多叉孤立树中,若数据点所处叶节点中包含的数据点越少,说明数据点与其余数据点的相似程度越小,此时数据点越可能为异常数据点,当数据点所处的叶节点所在的层级越浅,说明数据点被经过较少的分割条件即可被筛选出来,说明数据点与其余数据点的区别较大,此时数据点越可能为异常数据点。因此本发明实施例根据每个数据点在每个多叉树中出现的次数以及位置来获取每个数据点在每个多叉孤立树中的异常概率:
具体的,根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率:
其中,pij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常概率,j取遍[1,J]中每个整数,J表示所有数据点的数量,i取遍[1,M]中每个整数,M表示第一数量,即多叉孤立树的数量;sij表示第i个多叉孤立树中包含第j个数据点的叶节点的数量;bijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点中包含的数据点的数量;Bijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点的父节点中包含的数据点的数量;表示第i个多叉孤立树中包含第j个数据点的第k个叶节点中包含的数据点数量的占比,即通过第i个多叉孤立树中包含第j个数据点的第k个叶节点对应的维度的分割条件筛选出的数据点的占比,当筛选出的数据点的数量越多,占比越多,说明第j个数据点与其余共同筛选出来的数据点在该叶节点对应的维度上越相似,此时第j个数据点为异常数据点的可能性越小,反之,当筛选出的数据点的数量越少,占比越小,说明第j个数据点与其余共同筛选出来的数据点在该叶节点对应的维度上越不相似,此时第j个数据点为异常数据点的可能性越大;tijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点的层数,当层数越小时,说明第j个数据点在第i个多叉孤立树中被筛选出来较早,即第j个数据点在第i个多叉孤立树中经过较少的分割条件被筛选出来,此时第j个数据点为异常数据点的可能性越大;Ti表示第i个多叉孤立树的深度;当第i个多叉孤立树中包含第j个数据点的叶节点的层数越小,且叶节点中包含的数据点个数越少,第j个数据点在第i个多叉孤立树中的异常概率越大。
对于每个数据点,获取多叉孤立树中只包含该数据点不包含其他数据点的叶节点,作为该数据点的孤立叶节点。若该数据点在多叉孤立树中的两个孤立叶节点处于多叉孤立树的同一个层级,则将此两个孤立叶节点作为孤立叶节点组。
获取孤立叶节点组获取每个数据点在每个多叉孤立树中的异常权重:
其中,wij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常权重,j取遍[1,J]中每个整数,J表示所有数据点的数量,i取遍[1,M]中每个整数,M表示第一数量,即多叉孤立树的数量;Dij表示所有数据点中第j个数据点在第i个多叉孤立树中对应的孤立叶节点组的数量;lijd表示所有数据点中第j个数据点在第i个多叉孤立树中对应的第d个孤立叶节点组中两个孤立叶节点对应的分割条件的并集大小,例如数据点A在一个多叉孤立树中对应的一个孤立叶节点组中两个孤立叶节点对应的分割条件分别为[19,128]和[19,28]时,并集为[19,128],并集长度为109;Lijd表示所有数据点中第j个数据点在第i个多叉孤立树中对应的第d个孤立叶节点组,所在层级所有节点对应的分割条件的并集长度,例如数据点A在一个多叉孤立树中对应的一个孤立叶节点组所在层级的所有节点对应的分割条件分别为[19,128],[19,28],[78,210],[176,230],[101,230]时,并集为[19,230],并集长度为211;表示第i个多叉孤立树中将第j个数据点作为孤立叶节点筛选出来的分割条件范围与整体的比值,当比值越大,说明第j个数据点与其余数据点的差异越大,此时第j个数据点越异常;nij表示所有数据点中第j个数据点在第i个多叉孤立树中对应的孤立叶节点的数量;sij表示第i个多叉孤立树中包含第j个数据点的叶节点的数量;当第j个数据点在第i个多叉孤立树中对应的孤立叶节点的占比/>越大,说明第j个数据点在第i个多叉孤立树中越容易被单独筛选出来,第j个数据点越异常,此时第j个数据点在第i个多叉孤立树中的异常权重越大;α为超参数且α≠0,实施人员可根据实际实施情况设置α的值,例如α=0.001,对和/>分别加超参数α是为了防止异常权重为0。
根据每个数据点在所有多叉孤立树中的异常概率以及异常权重获取每个数据点的异常分值:
其中,Qj表示所有数据点中第j个数据点的异常分值,j取遍[1,J]中每个整数,J表示所有数据点的数量;wij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常权重;pij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常概率;M表示第一数量,即多叉孤立树的数量;当第j个数据点在每个多叉孤立树中的异常概率以及异常权重越大,第j个数据点的异常分值越大,第j个数据点越异常。
至此,获取了每个数据点的异常分值。
S004.根据异常分值筛选异常数据点,根据异常数据点分析矿产资源勘查中的异常情况。
预设异常阈值β,当数据点的异常分值大于异常阈值时,将数据点作为异常数据点,对异常数据点进行标注。异常阈值β具体不做限定,实施人员可根据具体实施情况设置异常阈值,例如β=0.5。
边缘节点将所有数据点传输至云端,在传输过程中,对于异常数据点先进行传输,对于其余数据点后进行传输,确保云端可及时根据异常数据点分析矿产资源勘查中的异常情况,并做出及时处理。
本发明实施例根据所有数据点构建多个多叉孤立树,相较于传统的二叉孤立树迭代次数少,效率高,提高了矿产资源勘查中异常识别的效率,由于传统的二叉孤立树中单阈值的随机性,可能会导致真正异常的数据点被漏识别,本发明的多叉孤立树设置多个分割条件进行划分,降低了真正异常的数据点被漏识别的可能性,提高了矿产按资源勘查中异常识别的准确性。本发明根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率,根据每个数据点在多叉孤立树中的孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重,结合异常概率以及异常权重获取每个数据点的异常分值,相较于传统的二叉孤立树仅利用数据点在二叉树孤立树中的位置获取异常分值,本发明得到的结果更加能反映数据点的孤立特性,根据异常分值筛选出的异常数据点更加准确,进一步提高了矿产按资源勘查中异常识别的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,该方法包括以下步骤:
采集矿产资源勘查环境的HSE数据,得到多个数据点;
边缘节点根据所有数据点构建多个多叉孤立树;根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率;获取每个数据点在每个多叉孤立树中的孤立叶节点,根据所述孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重;根据每个数据点在所有多叉孤立树中的异常概率以及异常权重获取每个数据点的异常分值;根据异常分值筛选异常数据点;
云端根据异常数据点分析矿产资源勘查中的异常情况。
2.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述多叉孤立树的构建方法为:
将所有数据点共同作为树的根节点;
在所有维度中随机选取一个维度作为第一分割维度,随机设置第一个分割维度的多个分割条件,对根节点中所有数据点的第一分割维度按照第一分割维度的每个分割条件分别进行划分,将所有数据点划分为多类数据点,将每类数据点作为根节点的一个子节点;
在除第一分割维度之外的所有维度中随机选择一个维度作为第二分割维度;对于树中包含数据点个数大于1的每个叶节点,为叶节点随机设置第二个分割维度的多个分割条件,对叶节点中所有数据点的第二分割维度按照第二分割维度的每个分割条件分别进行划分,将叶节点中所有数据点划分为多类数据点,将每类数据点作为叶节点的一个子节点;
依次类推,直到遍历完所有维度后停止迭代,将此时的树作为一个多叉孤立树。
3.根据权利要求2所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述随机设置第一个分割维度的多个分割条件,包括的具体步骤如下:
获取根节点中所有数据点的第一分割维度的最大值和最小值,在最大值和最小值构成的区间范围中随机选择多个子区间,选择的子区间之间可互相重叠,且选择的子区间中至少有一个子区间的左边界需为根节点中所有数据点的第一分割维度的最小值,至少有一个子区间的右边界需为根节点中所有数据点的第一分割维度的最大值;将每个子区间分别作为第一分割维度的一个分割条件。
4.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述根据每个数据点在每个多叉孤立树中出现的次数以及位置获取每个数据点在每个多叉孤立树中的异常概率,包括的具体步骤如下:
其中,pij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常概率,j取遍[1,J]中每个整数,J表示所有数据点的数量,i取遍[1,M]中每个整数,M表示多叉孤立树的数量;sij表示第i个多叉孤立树中包含第j个数据点的叶节点的数量;bijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点中包含的数据点的数量;Bijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点的父节点中包含的数据点的数量;tijk表示第i个多叉孤立树中包含第j个数据点的第k个叶节点的层数;Ti表示第i个多叉孤立树的深度;exp()表示以自然常数为底的指数函数。
5.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述获取每个数据点在每个多叉孤立树中的孤立叶节点,包括的具体步骤如下:
对于每个数据点,获取多叉孤立树中只包含该数据点的叶节点,作为该数据点的孤立叶节点。
6.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述根据所述孤立叶节点获取每个数据点在每个多叉孤立树中的异常权重,包括的具体步骤如下:
根据数据点的孤立叶节点获取孤立叶节点组;
根据孤立叶节点组获取每个数据点在每个多叉孤立树中的异常权重:
其中,wij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常权重,j取遍[1,J]中每个整数,J表示所有数据点的数量,i取遍[1,M]中每个整数,M表示多叉孤立树的数量;Dij表示所有数据点中第j个数据点在第i个多叉孤立树中对应的孤立叶节点组的数量;lijd表示所有数据点中第j个数据点在第i个多叉孤立树中对应的第d个孤立叶节点组中两个孤立叶节点对应的分割条件的并集大小;Lijd表示所有数据点中第j个数据点在第i个多叉孤立树中对应的第d个孤立叶节点组所在层级所有节点对应的分割条件的并集大小;nij表示所有数据点中第j个数据点在第i个多叉孤立树中对应的孤立叶节点的数量;sij表示第i个多叉孤立树中包含第j个数据点的叶节点的数量;α为超参数。
7.根据权利要求6所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述根据数据点的孤立叶节点获取孤立叶节点组,包括的具体步骤如下:
若数据点在多叉孤立树中的两个孤立叶节点处于多叉孤立树的同一个层级,则将此两个孤立叶节点作为一个孤立叶节点组。
8.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述根据每个数据点在所有多叉孤立树中的异常概率以及异常权重获取每个数据点的异常分值,包括的具体步骤如下:
其中,Qj表示所有数据点中第j个数据点的异常分值,j取遍[1,J]中每个整数,J表示所有数据点的数量;wij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常权重;pij表示所有数据点中第j个数据点在第i个多叉孤立树中的异常概率;M表示多叉孤立树的数量。
9.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述根据异常分值筛选异常数据点,包括的具体步骤如下:
预设异常阈值,当数据点的异常分值大于异常阈值时,将数据点作为异常数据点。
10.根据权利要求1所述的基于边缘计算的矿产资源勘查业务HSE数据管理方法,其特征在于,所述采集矿产资源勘查环境的HSE数据,得到多个数据点,包括的具体步骤如下:
在矿产资源勘查现场设置多个数据采集点,在每个数据采集点通过传感器采集矿产资源勘查环境的HSE数据,包括矿产资源勘查环境中的空气质量、水质、土壤质量以及噪声;将每个采集点采集的矿产资源勘查环境的HSE数据作为一个数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311457629.4A CN117235647B (zh) | 2023-11-03 | 2023-11-03 | 基于边缘计算的矿产资源勘查业务hse数据管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311457629.4A CN117235647B (zh) | 2023-11-03 | 2023-11-03 | 基于边缘计算的矿产资源勘查业务hse数据管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235647A true CN117235647A (zh) | 2023-12-15 |
CN117235647B CN117235647B (zh) | 2024-03-08 |
Family
ID=89084461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311457629.4A Active CN117235647B (zh) | 2023-11-03 | 2023-11-03 | 基于边缘计算的矿产资源勘查业务hse数据管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235647B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436005A (zh) * | 2023-12-21 | 2024-01-23 | 山东汇力环保科技有限公司 | 一种环境空气自动监测过程中异常数据处理方法 |
CN118070200A (zh) * | 2024-04-19 | 2024-05-24 | 天津市第五中心医院 | 一种基于大数据的类器官异常监测系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084326A (zh) * | 2019-05-13 | 2019-08-02 | 东北大学 | 一种基于模糊集的工业设备异常检测方法 |
CN111565171A (zh) * | 2020-03-31 | 2020-08-21 | 北京三快在线科技有限公司 | 异常数据的检测方法、装置、电子设备及存储介质 |
US20200374720A1 (en) * | 2018-06-04 | 2020-11-26 | Jiangnan University | Method for Detecting Abnormal Data in Sensor Network |
US10902062B1 (en) * | 2017-08-24 | 2021-01-26 | Amazon Technologies, Inc. | Artificial intelligence system providing dimension-level anomaly score attributions for streaming data |
CN113392914A (zh) * | 2021-06-22 | 2021-09-14 | 北京邮电大学 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
CA3170154A1 (en) * | 2021-08-12 | 2023-02-12 | 10353744 Canada Ltd. | Anomalous data detecting method, device, computer equipment, and storage medium |
CN116030487A (zh) * | 2021-10-25 | 2023-04-28 | 顺丰科技有限公司 | 异常运单的检测方法及装置 |
CN116756670A (zh) * | 2023-06-08 | 2023-09-15 | 温州激光与光电子协同创新中心 | 一种基于专家反馈的广义孤立森林异常检测方法 |
-
2023
- 2023-11-03 CN CN202311457629.4A patent/CN117235647B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902062B1 (en) * | 2017-08-24 | 2021-01-26 | Amazon Technologies, Inc. | Artificial intelligence system providing dimension-level anomaly score attributions for streaming data |
US20200374720A1 (en) * | 2018-06-04 | 2020-11-26 | Jiangnan University | Method for Detecting Abnormal Data in Sensor Network |
CN110084326A (zh) * | 2019-05-13 | 2019-08-02 | 东北大学 | 一种基于模糊集的工业设备异常检测方法 |
CN111565171A (zh) * | 2020-03-31 | 2020-08-21 | 北京三快在线科技有限公司 | 异常数据的检测方法、装置、电子设备及存储介质 |
CN113392914A (zh) * | 2021-06-22 | 2021-09-14 | 北京邮电大学 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
CA3170154A1 (en) * | 2021-08-12 | 2023-02-12 | 10353744 Canada Ltd. | Anomalous data detecting method, device, computer equipment, and storage medium |
CN116030487A (zh) * | 2021-10-25 | 2023-04-28 | 顺丰科技有限公司 | 异常运单的检测方法及装置 |
CN116756670A (zh) * | 2023-06-08 | 2023-09-15 | 温州激光与光电子协同创新中心 | 一种基于专家反馈的广义孤立森林异常检测方法 |
Non-Patent Citations (1)
Title |
---|
王全林: "关于管道系统HSE危害识别与风险评价的探讨", 石油化工安全技术, no. 02, 31 March 2005 (2005-03-31) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436005A (zh) * | 2023-12-21 | 2024-01-23 | 山东汇力环保科技有限公司 | 一种环境空气自动监测过程中异常数据处理方法 |
CN117436005B (zh) * | 2023-12-21 | 2024-03-15 | 山东汇力环保科技有限公司 | 一种环境空气自动监测过程中异常数据处理方法 |
CN118070200A (zh) * | 2024-04-19 | 2024-05-24 | 天津市第五中心医院 | 一种基于大数据的类器官异常监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117235647B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117235647B (zh) | 基于边缘计算的矿产资源勘查业务hse数据管理方法 | |
CN104462184B (zh) | 一种基于双向抽样组合的大规模数据异常识别方法 | |
Li | Research on radar signal recognition based on automatic machine learning | |
CN101516099B (zh) | 一种传感器网络异常检测方法 | |
CN101178703B (zh) | 基于网络分割的故障诊断谱聚类方法 | |
CN102831440A (zh) | 一种广域遥感影像决策树分类方法及装置 | |
CN113537063B (zh) | 一种基于综合遥感技术的森林环境遥感监测方法及终端 | |
CN109063660B (zh) | 一种基于多光谱卫星影像的作物识别方法 | |
CN112416588B (zh) | 一种基于随机森林算法的资源分配方法 | |
CN105469219A (zh) | 一种基于决策树的电力负荷数据处理方法 | |
Abramova | Design of neuro-fuzzy decision trees | |
CN109471847A (zh) | 一种i/o拥塞控制方法及控制系统 | |
CN110827169A (zh) | 一种基于分级指标的分布式电网业务监控方法 | |
CN110704662A (zh) | 一种图像分类方法及系统 | |
CN113484837A (zh) | 一种面向电磁大数据的未知雷达辐射源智能识别方法 | |
CN117371933A (zh) | 一种基于物联网的智慧实验室管理系统 | |
CN103678683A (zh) | 一种面向精细农业的加权空间模糊聚类方法和设备 | |
CN117670527B (zh) | 基于地块数据的农户贷款授信额度确定方法及系统 | |
Kumar et al. | Prediction of production of crops using k-mean & fuzzy logic | |
CN104657473B (zh) | 一种保证质量单调性的大规模数据挖掘方法 | |
CN106550387B (zh) | 一种无线传感器网络路由层服务质量评价方法 | |
CN110458438A (zh) | 植被水分利用效率wue的影响因子的计算方法及装置 | |
CN114399407B (zh) | 一种基于动静态选择集成的电力调度监控数据异常检测方法 | |
CN109034392A (zh) | 一种罗非鱼杂交配套系的选育方法及系统 | |
CN111831971B (zh) | 一种鸟类密度估算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |