CN113077159B - 数据处理方法及数据处理装置 - Google Patents
数据处理方法及数据处理装置 Download PDFInfo
- Publication number
- CN113077159B CN113077159B CN202110396355.7A CN202110396355A CN113077159B CN 113077159 B CN113077159 B CN 113077159B CN 202110396355 A CN202110396355 A CN 202110396355A CN 113077159 B CN113077159 B CN 113077159B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- key index
- data processing
- cosine similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 58
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 102
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000009467 reduction Effects 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims abstract description 22
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 238000003860 storage Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 11
- 239000013589 supplement Substances 0.000 abstract 1
- 238000004519 manufacturing process Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法及数据处理装置。其中,该方法包括:根据预设规则对采集的原始数据依次进行清洗、提取;根据提取的数据构建关键指标矩阵,其中,行代表不同用户,列代表不同关键指标;采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理;根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值。采用本发明的数据处理方法,有效降低了原始数据的稀疏性,提高了数据处理的效率及数据分析的准确度;此外,采用获得的预测值对缺失的关键指标数据进行补充,为后续数据分析提供支撑。
Description
技术领域
本发明涉及工业互联网领域,具体而言,涉及一种数据处理方法及数据处理装置。
背景技术
目前能源工业互联网接收了不同电厂端系统的数据,数据种类丰富且数量庞大;此外,不同电厂之间的配置有所区别,导致不同电厂端系统的数据种类不同,数据维度很高,稀疏性很大。
数据稀疏性很大的弊端主要在于某些关键指标可能只出现在少数电厂端系统,而其他电厂端系统并未设置该关键指标或根本没有对该关键指标进行监测/记录,从而导致在进行数据分析时无法给出统一的分析评判标准,进而无法给出合理的分析结果,无法对电厂给出有针对性的、具有实际指导意义的建议或解决办法。此外,数据稀疏性大导致数据处理及数据分析的效率非常低,且分析的准确度也受到严重影响。
因此,亟需一种有效的数据处理方法,解决现有技术中数据稀疏性大的问题,有效提高数据处理的效率及数据分析的准确度。
发明内容
本发明提供了一种数据处理方法及数据处理装置,以至少解决相关技术中数据稀疏性大的技术问题。
根据本发明的一个方面,提供了一种数据处理方法,包括:根据预设规则对采集的原始数据依次进行清洗、提取;根据提取的数据构建关键指标矩阵,其中,行代表不同用户,列代表不同关键指标;采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理;根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值。采用本发明的数据处理方法,有效降低了原始数据的稀疏性,提高了数据处理的效率及数据分析的准确度;此外,根据获得的关键指标的预测值对原始数据中缺失的相关数据进行补充,并反馈相关电厂,提醒其对该关键指标进行监测,并根据预测值对其实际监测值进行评估。
优选地,所述清洗包括删除所述原始数据中的无效数据、重复数据和/或错误数据,其中,所述无效数据包括缺少关键信息的数据、无法解析的数据等;所述重复数据包括同一时间采集的某个/些电厂的某个/些指标的相同重复的数据;所述错误数据包括不完整的数据或明显不符合规则的数据。
优选地,所述提取包括对清洗后的数据进行归类,所述归类包括根据数据类别、数据来源和/或参数指标对清洗后的数据进行归类,其中,所述数据类别包括性能类、生产类、安全类、经济类、消费类、节能减排类等;所述数据来源包括电厂和/或电厂中各类数据相关设备;所述参数指标包括设备参数、生产参数、安全参数等。
优选地,根据时间段将提取的数据进行拆分,在同一时间段内同一用户不同维度的数据整合为一行,用户的不同关键指标作为列数据,构建成为一个原始关键指标矩阵,其中,行代表不同用户,列代表不同关键指标。
优选地,所述归一化处理包括以下步骤:将所述关键指标矩阵中各元素根据其所在列的最大值、最小值进行归一化到0-1之间。对关键指标矩阵进行归一化处理有利于提高数据处理速度及其精度。
优选地,所述降维处理包括以下步骤:根据奇异值分解算法将所述归一化后的矩阵分解为三个矩阵U、Σ、VT;根据奇异值平方和对矩阵U、Σ、VT的维度进行简化,获得简化后的矩阵U、Σ、VT;对简化后的矩阵U进行复原,获得复原后的矩阵U。
具体地,根据奇异值分解算法将所述归一化后的矩阵分解为三个矩阵U、Σ、VT,其中,
PAWER_MAT代表所述归一化后的矩阵;
根据奇异值平方和对矩阵U、VT、Σ的维度进行简化,本发明根据实际数据测试后保持前80维数据。简化降维后的U、VT、Σ再经过矩阵奇异值分解的逆运算,可获得降噪后的m*n矩阵。其中,简化后的矩阵U的行保留了归一化后的矩阵的行的主要信息,VT列保留了归一化后的矩阵的列的主要信息,Σ保留了原矩阵的奇异值信息,也就是说,简化后的矩阵U、VT、Σ相对于所述归一化后的矩阵降低了维度,但保留了所述归一化后的矩阵的主要信息及能量,去除了噪声,不仅有利于提高后续数据处理速率,而且有效提高了后续数据分析的准确度;
对简化后的矩阵U进行复原,获得复原后的矩阵U。本发明采用复原后的矩阵U进行用户间相似度的计算。
优选地,所述根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值包括以下步骤:将所述复原后的矩阵U中不同用户的数据定义为不同向量;根据余弦相似度公式计算获得任意两个向量的余弦相似度,并将获得的余弦相似度进行归一化至0-1之间;根据获得的余弦相似度归一化值获得所述关键指标的预测值。本发明采用余弦相似度公式计算获得任意两个用户的相似度,计算过程简单,且准确度较高。
优选地,所述根据获得的余弦相似度归一化值获得所述关键指标的预测值包括以下步骤:选取相对于某用户的余弦相似度归一化值最高的预设数量的其他用户,并对所述其他用户的关键指标原始数据进行存储;将选取的所述其他用户的某关键指标的原始数据加和平均,获得所述某用户的所述某关键指标的预测值。
更优选地,所述根据获得的余弦相似度归一化值获得所述关键指标的预测值包括以下步骤:将某用户(某向量)的最高余弦相似度归一化值的20个用户的关键指标原始数据进行保存;当该用户某关键指标有空值需要预测时,直接找到保存的余弦相似度归一化值最高的20个用户该关键指标的原始数据进行加和平均计算,获得该用户该关键指标的预测值。20个用户都没有相应指标的概率小于0.0000000001。如果确实20个用户都没有该关键指标则标记该数据为NULL。这样又进一步的节约了计算的性能和时间,提高了效率。
采用同样的方法,可获得不同用户不同关键指标的预测值。根据预测值对各用户缺失数据进行补充,一方面对电厂数据分析提供数据支撑,进而为电厂提供分析结果以指导电厂发现并解决相关技术问题;另一方面可将预测值直接反馈电厂,建议电厂对该关键指标进行监测以提升生产质量,进而使同级别或同类型电厂的生产质量相统一。
根据本发明的另一方面,还提供了一种数据处理装置,包括:数据清洗单元,用于对采集的原始数据进行清洗;数据提取单元,用于对清洗后的数据进行提取;数据处理单元,用于根据提取的数据构建关键指标矩阵,采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理,以及根据所述降维处理后的矩阵及预设算法获得关键指标的预测值。
优选地,所述数据处理装置还包括:数据采集单元,用于对用户数据进行采集,获得所述原始数据;存储单元,用于存储所述原始数据、数据处理过程中的所有中间数据、所述预设规则、预设算法、所述预测值。
根据本发明的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述数据处理方法。
根据本发明的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器通过所述计算机程序执行上述数据处理方法。
本发明通过上述数据处理方法,有效降低了原始数据的稀疏性,提高了数据处理的效率及数据分析的准确度,进而提高了数据分析结果对电厂的指导价值;此外,根据获得的关键指标的预测值对原始数据中相关数据进行补充,并反馈相关电厂,提醒其对该关键指标进行监测,并根据预测值对其实际监测值进行评估、调整,进一步提高电厂生产质量,而且,也有利于建立统一完善的电厂评估体系,为电厂的管理及相关技术/经验的共享提供基础。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据处理方法的流程图;
图2是根据本发明实施例的一种可选的数据处理装置的示意图;
图3是根据本发明实施例的另一种可选的数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的一个实施方式,提供了一种数据处理方法,用于电厂数据处理,如图1所示,包括以下步骤:
步骤102,根据预设规则对采集的原始数据依次进行清洗、提取;
步骤104,根据提取的数据构建关键指标矩阵,其中,行代表不同电厂,列代表不同关键指标,缺失的数据以“0”填充;
步骤106,采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理;
步骤108,根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值。
步骤102中,对采集的原始数据进行清洗的规则可根据实际需要设置。例如,所述清洗可以包括删除所述原始数据中的无效数据、重复数据和/或错误数据,其中,所述无效数据包括缺少关键信息无法分辨的数据、无法解析的数据等;所述重复数据包括同一时间采集的某个/些电厂的某个/些指标的相同重复的数据;所述错误数据包括不完整的数据或明显不符合规则的数据等。
步骤102中,对清洗后的数据进行提取的规则可根据实际需要设置。例如,所述提取可以包括对清洗后的数据进行归类,所述归类包括根据数据类别、数据来源和/或参数指标对清洗后的数据进行归类,其中,所述数据类别可根据实际需要设置,例如包括性能类、生产类、安全类、经济类、消费类、节能减排类等;所述数据来源包括电厂和/或电厂中各类数据相关设备;所述参数指标包括设备参数、生产参数、安全参数等。
步骤104中,关键指标可根据实际需要选择,例如,所述关键指标可以是电厂场站类型、场站设备种类、设备生产商、设备型号、设备使用年限等。关键指标一般选取数字化的指标,或者将非数字化的指标转换成枚举型的数字类型。根据时间段将提取的数据进行拆分,在同一时间段内同一电厂不同维度的数据整合为一行,电厂的不同关键指标作为列数据,构建成为一个原始关键指标矩阵,其中,行代表不同电厂,列代表不同关键指标;数据缺失的以“0”填充。
步骤106中,预设算法为预先根据实际需要设置并存储的相关算法,例如,所述预设算法可以包括矩阵归一化算法、奇异值分解算法(SVD)、矩阵简化/复原算法等,分别用以对所述关键指标矩阵进行归一化处理、对归一化后的矩阵进行分解、对分解获得的矩阵进行简化、对简化后的矩阵进行复原等。
本领域技术人员可以理解的是,预设算法泛指预先设置的可用于实现本发明技术方案的所有算法,包括但不限于步骤106中用到的矩阵归一化算法、奇异值分解算法、矩阵简化/复原算法,及步骤108中用到的余弦相似度公式、归一化公式、加和平均公式等。
作为一种优选的实施方式,所述归一化处理包括以下步骤:将所述关键指标矩阵中各元素根据其所在列的最大值、最小值进行归一化到0-1之间;所述降维处理包括以下步骤:根据奇异值分解算法将所述归一化后的矩阵分解为三个矩阵U、Σ、VT;根据奇异值平方和对矩阵U、Σ、VT的维度进行简化,获得简化后的矩阵U、Σ、VT;对简化后的矩阵U进行复原,获得复原后的矩阵U。以复原后的矩阵U计算各电厂间的相似度。
作为一种优选的实施方式,根据奇异值平方和对矩阵U、VT、Σ的维度进行简化,保留其中90.0-99.9%的能量。
步骤108中,所述根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值可以包括以下步骤:
S1,将所述复原后的矩阵U中不同电厂的数据定义为不同向量;
S2,根据余弦相似度公式计算获得任意两个向量的余弦相似度,并将获得的余弦相似度进行归一化至0-1之间;
S3,根据获得的余弦相似度归一化值获得所述关键指标的预测值。
作为一种优选的实施方式,S3中,所述根据获得的余弦相似度归一化值获得所述关键指标的预测值可以包括以下步骤:
S31,选取相对于某电厂的余弦相似度归一化值最高的预设数量的其他电厂,并对所述其他电厂的关键指标原始数据进行存储;
S32,将选取的所述其他电厂的某关键指标的原始数据加和平均,获得所述某电厂的所述某关键指标的预测值。
作为一种优选的实施方式,预设数量设置为20,可在保证计算精确度的前提下,获得最大的计算效率。
采用同样的方法,可获得不同电厂的不同关键指标的预测值。根据预测值对各电厂缺失数据进行补充,一方面对电厂数据分析提供数据支撑,进而为电厂提供分析结果以指导电厂发现并解决相关技术问题;另一方面可将预测值直接反馈电厂,建议电厂对该关键指标进行监测以提升生产质量,进而使同级别或同类型电厂的生产质量相统一。
下面以一个具体的实施例说明本发明的数据处理方法,但不作为对本发明技术方案的限定。
为了对同类型电厂场站进行管理,建立标准化生产流程,对多家同类型电厂场站的生产数据进行采集并存储;采集的原始数据经人工或电脑进行清洗,删除无效数据、重复数据、错误数据后,提取关键设备的关键参数指标的相关数据,构建关键指标矩阵:
其中,aij代表电厂i关键指标j的原始数据,i、j、m、n均为正整数,1≤i≤m,1≤j≤n;如果某电厂某关键指标的原始数据缺失,则在关键指标矩阵中填充0;本实施例中,m=n=2000;
将关键指标矩阵中各元素根据其所在列的最大值、最小值进行归一化到0-1之间,获得归一化后的矩阵PAWER_MAT:
其中,bij代表电厂i关键指标j的归一化数值,0≤bij≤1,i、j、m、n均为正整数,1≤i≤m,1≤j≤n;本实施例中,m=n=2000;
根据奇异值分解算法将归一化后的矩阵分解为三个矩阵U、Σ、VT,其中,
根据奇异值平方和对矩阵U、Σ、VT的维度进行简化,获得简化后的矩阵U、Σ、VT;对简化后的矩阵U进行复原,获得复原后的矩阵U。本实施例中,根据奇异值平方和对矩阵U、Σ、VT的维度进行简化,即保留矩阵U、Σ、VT中92.3-99.5%的能量,对矩阵U、Σ、VT进行简化,本实施例根据实际数据测试后保持前80维数据,大大降低了后续计算的复杂度,提高了计算效率,且获得了较高的计算精确度。对简化后的矩阵U进行复原,获得复原后的矩阵U。本实施例采用复原后的矩阵U进行电厂间相似度的计算。
本实施例以电厂1的关键指标1缺失为例,计算电厂1的关键指标1的预测值包括以下步骤:
首先将所述复原后的矩阵U中不同电厂的数据定义为不同向量;
根据余弦相似度公式计算获得任意两个向量的余弦相似度:
其中,A、B代表两个不同的向量,即代表A、B两个电厂关键指标1的相关数据,cosα为两个向量的余弦,||A||、||B||分别代表两个向量的二范数;
余弦相似度会得到一个-1至1之间的值,将原本在正负1之间的值归一化至0至1之间;
选取相对于电厂1的余弦相似度归一化值最高的20个(按照余弦相似度归一化值与1的接近程度选择前20个)电厂,的并对该20个电厂的关键指标原始数据进行存储;将选取的该20个电厂的关键指标1的原始数据加和平均,获得电厂1的关键指标1的预测值。
电厂1其他关键指标的缺失数据可由上述选取的20个电厂的相应关键指标的原始数据加和平均获得。
依此类推,其他电厂各关键指标的缺失数据均可依据上述方法进行预测并存储,以便后续进行分析。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本发明的另一实施方式,还提供了一种数据处理装置,如图2所示,包括数据清洗单元201、数据提取单元203、数据处理单元205,其中:
数据清洗单元201用于对采集的原始数据进行清洗;
数据提取单元203用于对清洗后的数据进行提取;
数据处理单元205用于根据提取的数据构建关键指标矩阵,采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理,以及根据所述降维处理后的矩阵及预设算法获得关键指标的预测值。
需要说明的是,该实施方式中的数据清洗单元201和数据提取单元203可以用于执行本申请实施方式中的步骤102,该实施方式中的数据处理单元205可以用于执行本申请实施方式中的步骤104-108。以下依此类推,不再赘述。
作为一种优选的实施方式,所述数据处理装置还包括(如图3所示):
数据采集单元207,用于对用户数据进行采集,获得所述原始数据;
存储单元209,用于存储所述原始数据、数据处理过程中的所有中间数据、所述预设规则、预设算法、特征值相似度计算法、所述预测值。
本领域技术人员可以理解的是,存储单元可用于存储任何需要存储的数据、规则、算法、分析结果、日志等,在此不做特殊限定,不再赘述。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在本发明实施例的硬件环境中,可以通过软件实现,也可以通过硬件实现。
本发明的另一实施方式,还提供了一种用于实施上述数据处理方法的服务器或终端,可以包括:一个或多个处理器、存储器、以及传输装置,还可以包括输入输出设备。
其中,存储器可用于存储软件程序以及模块,如本发明实施方式中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器用于存储应用程序。
处理器可以通过传输装置调用存储器存储的应用程序,以执行下述步骤:
根据预设规则对采集的原始数据依次进行清洗、提取;
根据提取的数据构建关键指标矩阵,其中,行代表不同用户,列代表不同关键指标;
采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理;
根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,终端可以是具有计算、存储、通信、显示等功能的任何终端设备。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施方式还提供了一种存储介质。可选地,在本实施方式中,上述存储介质可以用于执行上述数据处理方法的程序代码。
可选地,在本实施方式中,上述存储介质可以位于上述实施方式所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施方式中,存储介质被设置为存储用于执行以下步骤的程序代码:
根据预设规则对采集的原始数据依次进行清洗、提取;
根据提取的数据构建关键指标矩阵,其中,行代表不同用户,列代表不同关键指标;
采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理;
根据所述降维处理后的矩阵及预设算法获得所述关键指标的预测值。
可选地,本实施方式中的具体示例可以参考上述实施方式中所描述的示例,本实施方式在此不再赘述。
可选地,在本实施方式中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施方式的排版顺序仅仅为了描述,不代表实施方式的优劣。
上述实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施方法所述方法的全部或部分步骤。
在本发明的上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述的部分,可以参见其他实施方式的相关描述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的终端,可通过其它的方式实现。其中,以上所描述的装置实施方式仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种数据处理方法,用于多用户多维数据处理,其特征在于,包括:
根据预设规则对采集的原始数据依次进行清洗、提取;所述原始数据包括从不同用户采集的关键指标的原始数据;
根据提取的数据构建关键指标矩阵,其中,行代表不同用户,列代表不同关键指标;
采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理;其中,所述降维处理包括以下步骤:
根据奇异值分解算法将所述归一化后的矩阵分解为三个矩阵U、Σ、VT;根据奇异值平方和对矩阵U、Σ、VT的维度进行简化,获得简化后的矩阵U、Σ、VT;对简化后的矩阵U进行复原,获得复原后的矩阵U;
将所述复原后的矩阵U中不同用户的数据定义为不同向量;根据余弦相似度公式计算获得任意两个向量的余弦相似度,并将获得的余弦相似度进行归一化至0-1之间;根据获得的余弦相似度归一化值获得所述关键指标的预测值。
2.根据权利要求1所述的数据处理方法,其特征在于,所述清洗包括删除所述原始数据中的无效数据、重复数据和/或错误数据。
3.根据权利要求1所述的数据处理方法,其特征在于,所述提取包括对清洗后的数据进行归类,所述归类包括根据数据类别、数据来源和/或参数指标对清洗后的数据进行归类。
4.根据权利要求1所述的数据处理方法,其特征在于,所述归一化处理包括以下步骤:
将所述关键指标矩阵中各元素根据其所在列的最大值、最小值进行归一化到0-1之间。
5.根据权利要求1所述的数据处理方法,其特征在于,所述根据获得的余弦相似度归一化值获得所述关键指标的预测值包括以下步骤:
选取相对于某用户的余弦相似度归一化值最高的预设数量的其他用户,并对所述其他用户的关键指标原始数据进行存储;
将选取的所述其他用户的某关键指标的原始数据加和平均,获得所述某用户的所述某关键指标的预测值。
6.一种数据处理装置,用于执行权利要求1至5任一项所述数据处理方法,其特征在于,包括:
数据清洗单元,用于对采集的原始数据进行清洗;所述原始数据包括从不同用户采集的关键指标的原始数据;
数据提取单元,用于对清洗后的数据进行提取;
数据处理单元,用于根据提取的数据构建关键指标矩阵,采用预设算法对所述关键指标矩阵进行归一化处理,并对归一化后的矩阵进行降维处理,获得复原后的矩阵U;以及将所述复原后的矩阵U中不同用户的数据定义为不同向量;根据余弦相似度公式计算获得任意两个向量的余弦相似度,并将获得的余弦相似度进行归一化至0-1之间;根据获得的余弦相似度归一化值获得所述关键指标的预测值。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至5任一项所述的数据处理方法。
8.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行权利要求1至5任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396355.7A CN113077159B (zh) | 2021-04-13 | 2021-04-13 | 数据处理方法及数据处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110396355.7A CN113077159B (zh) | 2021-04-13 | 2021-04-13 | 数据处理方法及数据处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077159A CN113077159A (zh) | 2021-07-06 |
CN113077159B true CN113077159B (zh) | 2023-12-15 |
Family
ID=76617547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110396355.7A Active CN113077159B (zh) | 2021-04-13 | 2021-04-13 | 数据处理方法及数据处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077159B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742650A (zh) * | 2021-08-16 | 2021-12-03 | 国网河南省电力公司电力科学研究院 | 一种分布式传感数据处理方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3173991A1 (en) * | 2015-11-30 | 2017-05-31 | Siemens Aktiengesellschaft | Method and apparatus for automatic recognizing similarities between perturbations in a network |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN109816015A (zh) * | 2019-01-22 | 2019-05-28 | 北京科技大学 | 一种基于材料数据的推荐方法及系统 |
WO2020015075A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 人脸图像比对方法、装置、计算机设备及存储介质 |
CN110909989A (zh) * | 2019-11-08 | 2020-03-24 | 北京京能电力股份有限公司 | 一种用于多电厂的机组性能分析系统及方法 |
WO2020181804A1 (zh) * | 2019-03-12 | 2020-09-17 | 中国电力科学研究院有限公司 | 大电网临界暂态稳定边界状态的识别方法、装置、电子设备及存储介质 |
CN111695349A (zh) * | 2019-02-28 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 文本匹配方法和文本匹配系统 |
CN112116160A (zh) * | 2020-09-25 | 2020-12-22 | 国网新疆电力有限公司电力科学研究院 | 一种基于优化神经网络改进元胞自动机的重要输电通道灾害监测方法 |
CN112288170A (zh) * | 2020-10-30 | 2021-01-29 | 北方魏家峁煤电有限责任公司 | 基于大数据分析的电厂机组工况寻优分析方法 |
CN112629585A (zh) * | 2020-12-02 | 2021-04-09 | 三门核电有限公司 | 基于多维参数估计的设备在线监测方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268015A1 (en) * | 2015-09-02 | 2018-09-20 | Sasha Sugaberry | Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution |
US10776740B2 (en) * | 2016-06-07 | 2020-09-15 | International Business Machines Corporation | Detecting potential root causes of data quality issues using data lineage graphs |
US10742068B2 (en) * | 2018-12-31 | 2020-08-11 | PXiSE Energy Solutions, LLC | Real-time deviation detection of power system electrical characteristics using time-synchronized measurements |
-
2021
- 2021-04-13 CN CN202110396355.7A patent/CN113077159B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3173991A1 (en) * | 2015-11-30 | 2017-05-31 | Siemens Aktiengesellschaft | Method and apparatus for automatic recognizing similarities between perturbations in a network |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
WO2020015075A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 人脸图像比对方法、装置、计算机设备及存储介质 |
CN109816015A (zh) * | 2019-01-22 | 2019-05-28 | 北京科技大学 | 一种基于材料数据的推荐方法及系统 |
CN111695349A (zh) * | 2019-02-28 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 文本匹配方法和文本匹配系统 |
WO2020181804A1 (zh) * | 2019-03-12 | 2020-09-17 | 中国电力科学研究院有限公司 | 大电网临界暂态稳定边界状态的识别方法、装置、电子设备及存储介质 |
CN110909989A (zh) * | 2019-11-08 | 2020-03-24 | 北京京能电力股份有限公司 | 一种用于多电厂的机组性能分析系统及方法 |
CN112116160A (zh) * | 2020-09-25 | 2020-12-22 | 国网新疆电力有限公司电力科学研究院 | 一种基于优化神经网络改进元胞自动机的重要输电通道灾害监测方法 |
CN112288170A (zh) * | 2020-10-30 | 2021-01-29 | 北方魏家峁煤电有限责任公司 | 基于大数据分析的电厂机组工况寻优分析方法 |
CN112629585A (zh) * | 2020-12-02 | 2021-04-09 | 三门核电有限公司 | 基于多维参数估计的设备在线监测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113077159A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111726248A (zh) | 一种告警根因定位方法及装置 | |
CN112052404B (zh) | 多源异构关系网络的群体发现方法、系统、设备及介质 | |
WO2022169784A1 (en) | Systems and methods for data analytics | |
CN107025228B (zh) | 一种问题推荐方法及设备 | |
Hilderman et al. | Heuristic measures of interestingness | |
CN113077159B (zh) | 数据处理方法及数据处理装置 | |
CN111935140B (zh) | 异常报文识别方法及装置 | |
CN111400448A (zh) | 对象的关联关系分析方法及装置 | |
Jiang et al. | On the Channel Pruning using Graph Convolution Network for Convolutional Neural Network Acceleration. | |
CN110414229A (zh) | 操作命令检测方法、装置、计算机设备及存储介质 | |
CN107800437A (zh) | 数据压缩方法和装置 | |
CN110929173A (zh) | 同人识别方法、装置、设备及介质 | |
CN110689937A (zh) | 编码模型训练方法、系统、设备及检测项目编码方法 | |
CN109815736A (zh) | 一种数据库脱敏方法、装置及脱敏设备 | |
CN112883703A (zh) | 一种识别关联文本的方法、装置、电子设备及存储介质 | |
CN108763916A (zh) | 业务接口安全评估方法及装置 | |
Xhafa et al. | Apache Mahout's k-Means vs Fuzzy k-Means Performance Evaluation | |
CN115952398B (zh) | 基于物联网的数据上传统计计算方法、系统和存储介质 | |
CN104516970B (zh) | 一种进行日志分析的方法和装置 | |
CN115774870A (zh) | 设备授权作弊检测方法、装置、电子设备及存储介质 | |
CN114465875B (zh) | 故障处理方法及装置 | |
CN114760109A (zh) | 用于安全分析的数值行为安全基线生成方法及装置 | |
Wolf et al. | Sparse matrix partitioning for parallel eigenanalysis of large static and dynamic graphs | |
CN118797371A (zh) | 云安全共性能力要素提取方法、装置、设备及介质 | |
CN117591119B (zh) | 一种海量apk源码特征提取及相似分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |