CN118114201A - 基于多源数据融合和ai的气象质量数据分析方法及系统 - Google Patents
基于多源数据融合和ai的气象质量数据分析方法及系统 Download PDFInfo
- Publication number
- CN118114201A CN118114201A CN202410341383.2A CN202410341383A CN118114201A CN 118114201 A CN118114201 A CN 118114201A CN 202410341383 A CN202410341383 A CN 202410341383A CN 118114201 A CN118114201 A CN 118114201A
- Authority
- CN
- China
- Prior art keywords
- data
- visibility
- meteorological
- template
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 230000004927 fusion Effects 0.000 title claims abstract description 27
- 238000007405 data analysis Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 192
- 239000013598 vector Substances 0.000 claims abstract description 169
- 238000012512 characterization method Methods 0.000 claims abstract description 130
- 238000012544 monitoring process Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 55
- 238000010801 machine learning Methods 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 22
- 230000010354 integration Effects 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 15
- 230000003190 augmentative effect Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 14
- 238000011068 loading method Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 78
- 238000012545 processing Methods 0.000 description 28
- 238000013528 artificial neural network Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 15
- 239000003550 marker Substances 0.000 description 14
- 239000000284 extract Substances 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 239000000809 air pollutant Substances 0.000 description 3
- 231100001243 air pollutant Toxicity 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000026676 system process Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种基于多源数据融合和AI的气象质量数据分析方法及系统,在模型的基础训练环节,首先分别对气象数据向量表征组件和站点数据向量表征组件进行内源性学习,之后对至少涵盖内源性学习得到的初始气象数据向量表征组件和初始站点数据向量表征组件的初始多源数据能见度识别模型进行示例驱动学习,使基础训练分为两个环节。内源性学习环节可以对单一类型的系统气象数据和站点观测数据单独完成训练以得到特征挖掘的模型能力,联合示例驱动学习不断学习系统气象数据和站点观测数据的特征,完成能见度等级分类。可以充分习得基础训练知识模板集合的知识,模拟先验标记,同时模拟不同类型数据之间的牵涉作用,提升了能见度等级分类准确性。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于多源数据融合和AI的气象质量数据分析方法及系统。
背景技术
随着社会的不断发展和科技的进步,气象观测与预测技术在日常生活、农业生产、交通运输等众多领域中都扮演着至关重要的角色。特别是在能见度预测方面,准确的预测结果对于保障交通安全、指导航空航海以及评估大气环境质量等方面都具有不可替代的价值。传统的能见度预测方法往往依赖于单一的数据源和简单的数学模型,难以充分利用多源数据的互补性和关联性,导致预测结果的准确性和稳定性受到限制。近年来,随着人工智能技术的快速发展,特别是机器学习领域的不断创新,为多源数据融合和复杂模式识别提供了新的解决方案。
在机器学习领域,深度学习技术以其强大的特征提取和模式识别能力,在图像识别、语音识别、自然语言处理等多个领域取得了突破性的成果。然而,在气象数据分析领域,特别是在能见度预测方面,由于气象数据的复杂性、多变性和不确定性,如何有效地利用深度学习技术来提高预测性能仍然是一个具有挑战性的问题。为了解决这个问题,研究人员开始探索将多源数据融合技术与深度学习相结合的方法。通过将来自不同传感器的气象数据和站点观测数据进行有机融合,并利用深度学习模型来挖掘数据间的深层次关联和模式,有望提高能见度预测的准确性和稳定性。然而,现有的多源数据融合和深度学习相结合的方法在实际应用中仍然面临一些挑战。例如,如何有效地提取和表示气象数据和站点观测数据的特征?如何设计合理的深度学习模型来充分利用这些特征?这些都是当前研究中亟待解决的问题。
发明内容
本发明的目的在于提供一种基于多源数据融合和AI的气象质量数据分析方法及系统。
本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种基于多源数据融合和AI的气象质量数据分析方法,包括:获取拟分析系统气象数据,并确定所述拟分析系统气象数据相关的拟分析站点观测数据;将所述拟分析系统气象数据和所述拟分析站点观测数据加载到训练好的目标多源数据能见度识别模型中,得到所述目标多源数据能见度识别模型输出的能见度分析识别信息,其中,所述目标多源数据能见度识别模型是对基础训练后的多源数据能见度识别模型,进行模型细化调校后获得的机器学习模型;其中,所述多源数据能见度识别模型的基础训练过程包括以下步骤:获取基础训练知识模板集合,所述基础训练知识模板集合中每一基础训练知识模板包括一个系统气象数据知识模板、所述系统气象数据知识模板相关的站点观测数据知识模板和模板能见度先验标记;依据所述基础训练知识模板集合中各知识模板包括的系统气象数据知识模板,对气象数据向量表征组件进行多次内源性学习,得到学习后的初始气象数据向量表征组件;依据所述基础训练知识模板集合中各系统气象数据知识模板相关的站点观测数据知识模板,对站点数据向量表征组件进行多次内源性学习,得到学习后的初始站点数据向量表征组件;依据所述基础训练知识模板集合,对至少涵盖所述初始气象数据向量表征组件和所述初始站点数据向量表征组件的初始多源数据能见度识别模型,进行多次示例驱动学习,得到基础训练后的多源数据能见度识别模型。
作为一种实施方式,所述获取基础训练知识模板集合,包括:根据各个能见度监测区域分别对应的历史气象观测信息,生成各能见度监测区域对应的历史气象观测信息集合;其中,每一历史气象观测信息中包括一个历史系统气象数据、所述历史系统气象数据相关的历史站点观测数据和原始能见度先验标记;对于每一能见度监测区域,根据所述能见度监测区域对应的历史气象观测信息,进行示例驱动学习后得到所述能见度监测区域对应的目标辅助分类器;对于每一历史系统气象数据,根据各个目标辅助分类器,确定所述历史系统气象数据相关的各个辅助能见度分类信息,并将所述历史系统气象数据相关的原始能见度先验标记和各个辅助能见度分类信息的增广标签集,作为所述历史系统气象数据相关的模板能见度先验标记;根据所述历史系统气象数据、所述历史系统气象数据相关的模板能见度先验标记和历史站点观测数据,组建一个基础训练知识模板;根据各个基础训练知识模板,组建所述基础训练知识模板集合。
作为一种实施方式,所述根据各个能见度监测区域分别对应的历史气象观测信息,生成各能见度监测区域对应的历史气象观测信息集合,包括:根据各能见度监测区域中监测时间在预设时间区间内的各个初始气象观测信息,组建初始气象观测信息集合,每一初始气象观测信息中包括一个初始系统气象数据、所述初始系统气象数据相关的历史站点观测数据和原始能见度先验标记;在所述初始气象观测信息集合中逐个提取一个初始气象观测信息,并根据提取的初始气象观测信息完成如下单一化筛选,直至所述初始气象观测信息集合中没有未提取的初始气象观测信息时结束:分别确定所述提取的初始气象观测信息中的初始系统气象数据,与所述初始气象观测信息集合中其他初始气象观测信息中的初始系统气象数据之间的气象数据表征向量匹配因子;在所述初始气象观测信息集合中去除与所述提取的初始气象观测信息之间的气象数据表征向量匹配因子达到匹配因子阈值的其他初始气象观测信息;将单一化筛选后的初始气象观测信息集合中的初始气象观测信息,作为历史气象观测信息;根据各历史气象观测信息归属的能见度监测区域,根据所述各个历史气象观测信息集群分析得到各能见度监测区域对应的历史气象观测信息集合。
作为一种实施方式,所述根据各个目标辅助分类器,确定所述历史系统气象数据相关的各个辅助能见度分类信息,包括:确定所述历史系统气象数据对应的目标能见度监测区域,并确定所述目标能见度监测区域对应的目标辅助分类器,并获取除所述目标能见度监测区域外的各个其他能见度监测区域对应的其他目标辅助分类器;依据各个其他目标辅助分类器,分别确定所述历史系统气象数据中相关的各个辅助能见度分类信息。
作为一种实施方式,所述辅助能见度分类信息中包括辅助能见度标记和对于所述辅助能见度标记预测得到的预测支持系数;所述确定所述历史系统气象数据相关的各个辅助能见度分类信息之后,还包括:获取所述各个辅助能见度分类信息中包括的辅助能见度标记,与所述历史系统气象数据相关的原始能见度先验标记之间的初始重叠标记集合,并确定所述初始重叠标记集合中各个能见度先验标记对应的预测支持系数;在所述历史系统气象数据相关的原始能见度先验标记中去除所述初始重叠标记集合中预测支持系数达到标记过滤指标的能见度先验标记,得到处理后的原始能见度先验标记;对于所述处理后的原始能见度先验标记,进入到将所述历史系统气象数据相关的原始能见度先验标记和各个辅助能见度分类信息的增广标签集,作为所述历史系统气象数据相关的模板能见度先验标记的步骤进行执行。
作为一种实施方式,在对气象数据向量表征组件进行一次内源性学习时,完成如下步骤:在所述基础训练知识模板集合中提取预定个数的系统气象数据知识模板,并通过所述气象数据向量表征组件,分别从提取的各个系统气象数据知识模板中,提取预定个数的,且关联有时间戳的模板气象数据记录点;通过所述气象数据向量表征组件,根据属于同一系统气象数据知识模板的各个模板气象数据记录点组建内聚知识模板对,并根据属于不同系统气象数据知识模板的各个模板气象数据记录点组建离散知识模板对,其中,一个属于不同中包括两个模板气象数据记录点;根据所述内聚知识模板对和所述离散知识模板对对所述气象数据向量表征组件进行多次内源性循环学习,直至达到预设的单次优化结束判断标准。
作为一种实施方式,所述分别从提取的各个系统气象数据知识模板中,提取预定个数的关联有时间戳的模板气象数据记录点时,完成如下步骤中的其中一个:对于提取的每一系统气象数据知识模板,根据所述系统气象数据知识模板对应的时间跨度,设置所述系统气象数据知识模板对应的目标节点,并在所述系统气象数据知识模板上所述目标节点对应的模板气象数据记录点开始,提取预定个数且关联有时间戳的模板气象数据记录点;对于提取的每一系统气象数据知识模板,根据所述系统气象数据知识模板对应的时间跨度,将所述系统气象数据知识模板划分为预定个数的知识模板子气象数据,分别在各个知识模板子气象数据中任意提取一个模板气象数据记录点,得到预定个数的关联有时间戳的模板气象数据记录点。
作为一种实施方式,所述初始多源数据能见度识别模型包括初始气象数据向量表征组件、初始站点数据向量表征组件、用于融合站点数据特征和系统气象数据特征的特征整合组件,以及分类器;在所述初始多源数据能见度识别模型的一次示例驱动学习中,包括:将一个批中的系统气象数据知识模板和对应的站点观测数据知识模板输入所述初始多源数据能见度识别模型,其中,将所述系统气象数据知识模板输入所述初始气象数据向量表征组件,将所述站点观测数据知识模板输入所述初始站点数据向量表征组件;将所述初始气象数据向量表征组件输出的各个系统气象数据特征的融合特征,与所述站点数据向量表征组件输出的站点数据特征加载到所述特征整合组件,得到融合后的系统气象数据特征和站点数据特征;将所述特征整合组件输出的特征融合结果加载到所述分类器,得到对于各个样本气象观测信息输出的预测能见度分类结果;结合所述能见度分类结果与对应的模板能见度先验标记之间的误差,依据二元交叉熵代价函数获取代价值,以及根据所述代价值优化所述初始多源数据能见度识别模型的模型参变量。
作为一种实施方式,所述基础训练后的多源数据能见度识别模型中至少涵盖基础训练后的气象数据向量表征组件、基础训练后的站点数据向量表征组件,以及基础训练后的分类器时,当确定模型细化调校时设置的能见度先验标记与所述基础训练后的分类器中设置的能见度先验标记不匹配时,对基础训练后的多源数据能见度识别模型进行模型细化调校,完成如下步骤,得到目标多源数据能见度识别模型:获取细化调校知识模板集合,其中,每一细化调校知识模板中包括一个细化调校系统气象数据知识模板、所述细化调校系统气象数据知识模板相关的细化调校站点观测数据知识模板和细化调校模板能见度先验标记;根据模型细化调校时的各个能见度先验标记,更新所述基础训练后的分类器中设置的能见度先验标记;依据所述细化调校知识模板集合,对更新后的多源数据能见度识别模型进行多次模型细化调校,得到细化调校学习后的目标多源数据能见度识别模型。
第二方面,本申请提供一种计算机系统,包括:
一个或多个处理器;
存储器;一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如上所述的方法。
本申请的有益效果至少包括:本申请提供一种基于多源数据融合和AI的气象质量数据分析方法及系统,在模型的基础训练环节,首先分别对气象数据向量表征组件和站点数据向量表征组件进行内源性学习,之后对至少涵盖内源性学习得到的初始气象数据向量表征组件和初始站点数据向量表征组件的初始多源数据能见度识别模型,进行示例驱动学习,使基础训练分为两个环节。内源性学习环节可以对单一类型的系统气象数据和站点观测数据单独完成训练以得到特征挖掘的模型能力,同时,联合示例驱动学习,不断学习系统气象数据和站点观测数据的特征,完成能见度等级分类。这样一来,基础训练后的多源数据能见度识别模型可以充分习得基础训练知识模板集合的知识,模拟基础训练知识模板中包括的先验标记,同时模拟不同类型数据之间的牵涉作用,提升了能见度等级分类准确性。
在能见度等级分类时,获取拟分析系统气象数据及相关的拟分析站点观测数据后,依据对基础训练得到的多源数据能见度识别模型进行模型细化调校后得到的目标多源数据能见度识别模型,根据拟分析系统气象数据和拟分析站点观测数据,输出能见度分析识别信息。如此,对依据分批次的基础训练机制,得到基础训练后的多源数据能见度识别模型来说,根据对在基础训练时充分模拟已知知识的基础训练后的多源数据能见度识别模型进行细化调校后,获得的目标多源数据能见度识别模型可以提升复杂多源数据反应的能见度等级分类过程,完成气象观测信息的高质量分析。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种基于多源数据融合和AI的气象质量数据分析方法的流程图。
图2是本申请实施例提供的一种计算机系统的组成示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例中基于多源数据融合和AI的气象质量数据分析方法的执行主体为计算机系统,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。服务器包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机系统可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机系统的交互操作来实现本申请。其中,计算机系统所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供了一种基于多源数据融合和AI的气象质量数据分析方法,如图1所示,该方法包括:
步骤S10:获取拟分析系统气象数据,并确定拟分析系统气象数据相关的拟分析站点观测数据。
步骤S10中,获取了拟分析系统气象数据和确定相关的拟分析站点观测数据。关于获取拟分析系统气象数据,计算机系统需要从特定的气象系统中提取所需的数据。以中国陆地数据同化系统为例,该系统是一个集成了多种气象观测数据和模式数据的大型数据处理系统。计算机系统通过访问这个系统,可以获取到关于某个特定目的区域(如某个城市、地区或国家)的详细气象数据。这些数据可以包括但不限于温度、湿度、风速、风向、气压等多种气象要素。在获取了系统气象数据后,计算机系统还需要找到与这些数据相关的实际观测数据,这些观测数据通常来自于分布在不同地理位置的气象观测站点。每个观测站点都会定期收集并记录各种气象信息,如降雨量、日照时长、排放数据(如工业或交通排放)、空气污染物浓度数据等。通过与系统气象数据进行对比和分析,这些站点观测数据可以为后续的数据分析提供重要的参考和验证。
举例来说,假设计算机系统从中国陆地数据同化系统中获取了关于某个城市的逐小时气温和湿度数据。为了更全面地了解这个城市的气象状况,计算机系统还需要找到该城市及其周边地区的气象观测站点所记录的实际观测数据。这些观测数据可能包括该城市的降雨量、风向风速、排放数据、空气污染物浓度数据等信息。通过将系统气象数据与站点观测数据相结合,计算机系统可以对这个城市的气象状况进行更深入的分析和预测。
步骤S20:将拟分析系统气象数据和拟分析站点观测数据加载到训练好的目标多源数据能见度识别模型中,得到目标多源数据能见度识别模型输出的能见度分析识别信息,其中,目标多源数据能见度识别模型是对基础训练后的多源数据能见度识别模型,进行模型细化调校后获得的机器学习模型。
步骤S20中,将先前获取的气象数据与观测数据加载到一个预先训练好的机器学习模型中,以得到关于能见度的分析识别信息。首先,计算机系统将拟分析的系统气象数据和拟分析的站点观测数据整合成模型可以处理的格式。系统气象数据例如包含温度、湿度、气压等多个维度的信息,而站点观测数据则可能包含实时的天气现象记录,如降雨量、风速、排放数据等。这些数据需要被格式化成特征向量或数组的形式,以便输入到机器学习模型中。接着,计算机系统将这些格式化后的数据加载到训练好的目标多源数据能见度识别模型中。这个模型在基础训练阶段已经学习了如何从一般的气象数据和站点观测数据中提取关键特征,并预测能见度。但是,为了更准确地分析特定的系统气象数据和站点观测数据,该模型还经过了细化调校,即微调。微调是根据特定任务和数据集对模型进行进一步的优化,以提高其在特定情境下的预测性能。
在实施步骤S20时,目标多源数据能见度识别模型可以是多种类型的机器学习模型,例如深度神经网络(DNN)、卷积神经网络(CNN)或长短期记忆网络(LSTM)等。这些模型在结构和功能上有所不同,但都旨在通过学习数据中的复杂模式来进行预测。以CNN为例,它特别适合处理具有网格结构的数据,如图像或时间序列数据。在这种情况下,气象数据和观测数据可以被视为二维或三维的网格结构,CNN能够通过学习其空间特征来预测能见度。最后,目标多源数据能见度识别模型会输出能见度分析识别信息。这些信息可能是能见度的具体数值、等级或分类标签等,具体取决于模型的设计和任务需求。这些信息对于理解气象条件、制定天气预报或进行气象相关决策具有重要价值。
举个例子来说,假设计算机系统获取了某个城市一周内的系统气象数据和站点观测数据,并将这些数据加载到一个经过微调的目标多源数据能见度识别模型中。该模型可能是一个深度神经网络,已经在大量的历史气象数据上进行了基础训练,并在相似的城市气象数据上进行了微调。模型输出的结果可能是这个城市一周内每天的能见度预测值,以公里为单位。这些预测值可以用于指导航空、交通或环境监测等领域的决策。
可以理解,多源数据能见度识别模型的基础训练,也就是预训练的过程直接影响模型的识别效果,本申请的重点也在于该基础训练的过程,具体地,多源数据能见度识别模型的基础训练过程可以包括以下步骤:
步骤S110:获取基础训练知识模板集合,基础训练知识模板集合中每一基础训练知识模板包括一个系统气象数据知识模板、系统气象数据知识模板相关的站点观测数据知识模板和模板能见度先验标记。
基础训练的知识模板集合包含了模型需要学习的各种特征和对应的标签。在这个步骤中,计算机系统从各种来源获取大量的系统气象数据和相关的站点观测数据。这些数据被整理成一个个基础训练知识模板,每个模板都包含了一个系统气象数据知识模板、与之相关的站点观测数据知识模板,以及一个模板能见度先验标记。系统气象数据知识模板是包含了各种气象要素的数据结构,例如温度、湿度、风速、风向等。这些数据可以来自于气象卫星、气象雷达、气象观测站等各种气象数据源。每个知识模板都是一个特定时间点和地点的气象数据的快照。
站点观测数据知识模板则是与系统气象数据相对应的实际观测数据,它包括了站点观测到的各种气象现象,如降雨量、云量、排放数据、污染物浓度等。这些数据通常来自于分布在不同地理位置的气象观测站点,是对系统气象数据的重要补充和验证。模板能见度先验标记是每个知识模板对应的真实能见度标签。这个标签是已知的,它代表了在该时间点和地点实际观测到的能见度值或等级。这个标签是模型训练过程中的目标变量,模型需要通过学习气象数据和观测数据的特征来预测这个标签。
举个例子来说,假设有一个基础训练知识模板集合,其中包含了1000个知识模板。每个知识模板都包含了某个时间点和地点的系统气象数据(如温度25℃、湿度60%、风速5m/s等)、站点观测数据(如降雨量0mm、云量50%、Pm2.5459等)以及对应的能见度先验标记(如能见度等级为“良好”)。这个集合就被用作机器学习模型的基础训练数据,模型通过学习这些数据中的特征和规律来预测新的、未知的气象数据对应的能见度标签。
在一种实施方式中,步骤S110中,获取基础训练知识模板集合,具体可以包括:
步骤S111:根据各个能见度监测区域分别对应的历史气象观测信息,生成各能见度监测区域对应的历史气象观测信息集合;其中,每一历史气象观测信息中包括一个历史系统气象数据、历史系统气象数据相关的历史站点观测数据和原始能见度先验标记。
具体来说,计算机系统访问存储有历史气象观测信息的数据库或数据源。这些历史气象观测信息通常包含了长时间范围内(如过去几年)各个能见度监测区域的气象数据。每个能见度监测区域都可能有其独特的气候特征和气象模式,因此分别处理这些区域的数据是很重要的。在步骤S111中,计算机系统会对这些历史气象观测信息进行处理,以生成每个能见度监测区域对应的历史气象观测信息集合。这些信息集合中包含了大量的历史系统气象数据、与之相关的历史站点观测数据,以及原始的能见度先验标记。
历史系统气象数据是指那些通过气象系统(如卫星、雷达、气象站等)收集到的气象数据,它们反映了特定时间和地点的气象状况,如温度、湿度、风速等。
历史站点观测数据则是来自实际气象观测站点的数据,这些数据提供了关于特定地点的实时气象观测信息,如降雨量、风向、排放数据、空气污染物浓度等。
原始能见度先验标记是这些历史数据对应的真实能见度值或等级,它们是已知的,并将用作机器学习模型训练时的目标标签。
举个例子,假设有一个能见度监测区域A,其历史气象观测信息包含了过去一年的每日气象数据和对应的能见度等级。计算机系统会将这些数据整理成一个历史气象观测信息集合,其中每个数据点都包含了当日的系统气象数据(如温度、湿度等)、站点观测数据(如降雨量、风速等)以及对应的能见度等级标签。这个集合将被用作后续机器学习模型训练的基础数据。
通过步骤S111的处理,计算机系统能够生成一系列特定于各个能见度监测区域的历史气象观测信息集合,这些集合为后续的模型训练提供了丰富且有针对性的数据资源。
其中,作为一种实施方式,步骤S111,根据各个能见度监测区域分别对应的历史气象观测信息,生成各能见度监测区域对应的历史气象观测信息集合,具体可以包括:
步骤S1111:根据各能见度监测区域中监测时间在预设时间区间内的各个初始气象观测信息,组建初始气象观测信息集合,每一初始气象观测信息中包括一个初始系统气象数据、初始系统气象数据相关的历史站点观测数据和原始能见度先验标记。
步骤S1111中,计算机系统根据各个能见度监测区域在预设时间区间内的初始气象观测信息来组建初始气象观测信息集合。这些信息集合是后续数据处理和模型训练的基础。具体来说,对于每个能见度监测区域,计算机会收集该区域内监测时间在预设时间区间(如过去一年、五年或十年)内的所有初始气象观测信息。这些信息通常包括初始系统气象数据(如温度、湿度、风速等)、与初始系统气象数据相关的历史站点观测数据(如特定地点的降雨量、气压等),以及原始能见度先验标记(即该时间点的实际能见度等级或类别)。
例如,假设有一个能见度监测区域A,计算机系统会收集区域A在过去一年内每小时的初始气象观测信息。这些信息可能包括每小时的温度、湿度、风速读数,以及该小时内特定站点的降雨量和气压数据。此外,每条观测信息还会附带一个原始能见度先验标记,指示该小时内的实际能见度等级(如“优”、“良”、“中度”、“差”等)。收集到这些数据后,计算机会将它们整理成一个初始气象观测信息集合。这个集合中的每个元素都是一个完整的观测信息,包含了系统气象数据、站点观测数据和能见度等级标记。这样的集合为后续的数据筛选、特征提取和模型训练提供了便利。
需要注意的是,这里的“初始气象观测信息”指的是在进行任何筛选或处理之前的原始数据。在后续步骤中(如步骤S1112),这些初始信息会经过进一步的处理和筛选,以去除冗余或不相关的信息,提高数据质量和模型训练的准确性。
步骤S1112:在初始气象观测信息集合中逐个提取一个初始气象观测信息,并根据提取的初始气象观测信息完成如下单一化筛选,直至初始气象观测信息集合中没有未提取的初始气象观测信息时结束:
步骤S11121:分别确定提取的初始气象观测信息中的初始系统气象数据,与初始气象观测信息集合中其他初始气象观测信息中的初始系统气象数据之间的气象数据表征向量匹配因子(即特征间的相似度);
步骤S11122:在初始气象观测信息集合中去除与提取的初始气象观测信息之间的气象数据表征向量匹配因子达到匹配因子阈值的其他初始气象观测信息;
步骤S11123:将单一化筛选后的初始气象观测信息集合中的初始气象观测信息,作为历史气象观测信息;
步骤S11124:根据各历史气象观测信息归属的能见度监测区域,根据各个历史气象观测信息集群分析(即聚类)得到各能见度监测区域对应的历史气象观测信息集合。
步骤S1112的目的是通过去除冗余或相似的观测信息,提高数据的质量和后续模型训练的准确性。具体来说,计算机系统按照预设的流程逐个处理初始气象观测信息集合中的每一个初始气象观测信息。对于每一个被提取出来的初始气象观测信息,首先确定其包含的初始系统气象数据,并计算这些数据与其他初始气象观测信息中的初始系统气象数据之间的气象数据表征向量匹配因子。这个匹配因子实质上是一种相似度度量,用于量化两个系统气象数据之间的相似程度。
例如,假设有两个初始气象观测信息A和B,它们分别包含温度、湿度和风速的系统气象数据。计算机系统会计算A和B之间在这些维度上的相似度,得到一个气象数据表征向量匹配因子。如果这个匹配因子高于预设的匹配因子阈值,说明A和B在气象特征上非常相似,可能存在冗余。
在这种情况下,在初始气象观测信息集合中去除与当前提取的初始气象观测信息相似度过高(即匹配因子达到或超过阈值)的其他初始气象观测信息。这样做的目的是减少数据冗余,避免在模型训练时因为过于相似的数据点而导致过拟合或不必要的计算开销。经过这一轮筛选后,剩下的初始气象观测信息被认为是更具代表性的,它们将被保留下来作为历史气象观测信息。这些历史气象观测信息不仅包含了原始的系统气象数据和站点观测数据,还通过筛选过程去除了冗余信息,使得数据集合更加精炼和高效。
最后,根据各个历史气象观测信息所属的能见度监测区域,计算机会对这些信息进行集群分析(如聚类算法)。聚类的目的是将相似的历史气象观测信息归并到同一个集合中,以便后续针对每个能见度监测区域构建更具针对性的模型或进行更深入的数据分析。通过这样的处理流程,步骤S1112有效地提升了数据质量并为后续的数据利用打下了坚实基础。
具体地,步骤S11121中,其核心任务是计算提取的初始气象观测信息中的初始系统气象数据与其他观测信息中的气象数据之间的气象数据表征向量匹配因子,也即特征相似度。
具体来说,计算机系统在处理这一步骤时,首先选取一个初始气象观测信息作为基准。这个基准信息包含了特定的初始系统气象数据,如温度、湿度、风速等多个维度的数值。这些数据可以被看作是一个多维向量,其中每个维度对应一个气象特征。接着,遍历初始气象观测信息集合中的其他所有观测信息,并逐一计算它们各自包含的初始系统气象数据与基准信息中的气象数据之间的相似度。相似度的计算通常基于向量间的距离或相关性度量,如欧氏距离、余弦相似度等。这些度量方法能够量化两个向量在多维空间中的接近程度或方向一致性。
例如,假设基准信息的初始系统气象数据是一个三维向量[25,60,5],分别代表温度、湿度和风速的数值。而集合中的另一个观测信息的初始系统气象数据是[26,58,6]。计算机会计算这两个向量之间的相似度,比如使用欧氏距离公式来计算它们之间的距离。距离越近,相似度越高;反之,距离越远,相似度越低。
在这个过程中,计算机会为每个观测信息生成一个与基准信息相比较的相似度值,即气象数据表征向量匹配因子。这个因子实质上是一个数值,用于量化两个观测信息在气象特征上的相似程度。
通过步骤S11121的处理,计算机系统能够为每个观测信息分配一个相似度值,这些值将在后续的步骤中用于筛选冗余信息或进行其他数据处理操作。这一步骤对于提高数据质量和优化模型训练过程至关重要,因为它有助于减少相似或重复数据对模型性能的潜在影响。
步骤S11122中,计算机系统会根据预设的匹配因子阈值,对初始气象观测信息集合进行筛选,以去除那些与当前提取的初始气象观测信息在气象特征上过于相似的其他观测信息。具体来说,当计算机系统完成步骤S11121后,得到一组气象数据表征向量匹配因子,这些因子量化了当前提取的初始气象观测信息与其他观测信息之间的相似度。接下来,计算机会将这些匹配因子与预设的匹配因子阈值进行比较。匹配因子阈值是一个事先设定的数值,用于判断两个观测信息是否足够相似以至于可以被视为冗余。如果某个观测信息与当前提取的观测信息之间的匹配因子高于或等于这个阈值,那么计算机会认为这两个观测信息在气象特征上过于相似,存在冗余。
在这种情况下,计算机会在初始气象观测信息集合中去除那些与当前提取的观测信息相似度过高(即匹配因子达到或超过阈值)的其他观测信息。这样做的目的是减少数据冗余,提高数据质量和后续模型训练的准确性。
例如,假设当前提取的初始气象观测信息A包含温度25℃、湿度60%和风速5m/s的数据。在初始气象观测信息集合中,存在另一个观测信息B,其温度为26℃、湿度58%和风速6m/s。如果计算出的气象数据表征向量匹配因子显示A和B之间的相似度非常高,且超过了预设的匹配因子阈值,那么计算机会将观测信息B从集合中去除,以避免在后续处理中出现重复或冗余的数据。
通过步骤S11122的处理,初始气象观测信息集合中的数据得到了进一步的精炼和优化,为后续的数据分析和模型训练提供了更加准确和高效的数据基础。
步骤S11123涉及到将经过单一化筛选后的初始气象观测信息集合中的信息,正式确认为历史气象观测信息。这一步是数据清洗和准备过程中的一个重要环节,旨在确保所使用的数据是独特且具有代表性的,从而提高后续分析的准确性和可靠性。具体来说,计算机系统在执行步骤S11123时,会首先回顾已经完成的单一化筛选过程。在这个过程中,计算机已经根据预设的匹配因子阈值,去除了那些与当前提取的初始气象观测信息在气象特征上过于相似的其他观测信息。这样,经过筛选后的集合中剩下的观测信息,都是在气象特征上相对独特且具有代表性的。接下来,将这些经过筛选的初始气象观测信息正式标记为历史气象观测信息。这意味着这些信息不仅包含了原始的气象数据,如温度、湿度、风速等,还经过了严格的数据清洗和筛选过程,被认为是高质量、可靠的数据,可以用于后续的数据分析、模型训练或其他相关应用。
例如,假设初始气象观测信息集合中包含了100条观测信息,经过单一化筛选后,去除了20条与当前提取的观测信息在气象特征上过于相似的冗余信息。那么,在步骤S11123中,计算机会将剩下的80条独特且具有代表性的观测信息正式确认为历史气象观测信息,并将它们存储在适当的数据结构中,以便后续使用。通过这一步的处理,计算机系统不仅优化了数据集合,去除了冗余信息,还为后续的数据分析和模型训练提供了更加准确、可靠的数据基础。
步骤S11124涉及到根据历史气象观测信息所属的能见度监测区域进行集群分析,以形成各区域对应的历史气象观测信息集合。这一步的目的是为了将相似气象条件下的观测数据进行归类,从而便于后续的区域性分析和模型训练。
具体来说,计算机系统在执行步骤S11124时,会首先识别每个历史气象观测信息所归属的能见度监测区域。这些信息在之前的处理步骤中已经被标记了相应的区域标签。然后,计算机会根据这些区域标签将历史气象观测信息进行分类。接下来,对于每个能见度监测区域,计算机会进行集群分析,通常采用的是聚类算法。聚类算法是一种无监督学习方法,它能够将相似的数据点归并到同一个集群中。在这个场景下,相似的数据点指的是在气象特征上相近的历史气象观测信息。通过聚类分析,计算机能够将这些信息按照气象特征的相似性进行分组,形成各个能见度监测区域对应的历史气象观测信息集合。
例如,假设有两个能见度监测区域A和B,分别对应着城市的不同地区。经过步骤S11123处理后,得到了一组历史气象观测信息。现在,在步骤S11124中,计算机会根据这些信息归属的区域标签将其分为两组。然后,对于区域A和区域B的每一组信息,计算机会分别应用聚类算法,如K-means算法,将它们进一步细分为若干个集群,每个集群内的观测信息在气象特征上具有高度的相似性。最终,通过步骤S11124的处理,得到了各个能见度监测区域对应的历史气象观测信息集合。这些集合不仅按照区域进行了分类,还在每个区域内根据气象特征的相似性进行了进一步的细分。这样的数据结构为后续的区域性气象分析、模型训练以及预测提供了有力的支持。
步骤S112:对于每一能见度监测区域,根据能见度监测区域对应的历史气象观测信息,进行示例驱动学习后得到能见度监测区域对应的目标辅助分类器。
步骤S112涉及对特定能见度监测区域的历史气象观测信息进行有监督学习,以生成该区域对应的目标辅助分类器。这个分类器在后续步骤中将用于辅助生成更加准确的能见度分析识别信息。具体来说,计算机系统会针对每个能见度监测区域,利用其对应的历史气象观测信息集合来进行示例驱动学习。这种学习方法是一种有监督学习,它要求训练数据包含输入特征(在这里是系统气象数据和站点观测数据)以及对应的目标标签(在这里是原始能见度先验标记)。
在这个过程中,计算机系统会选择一个合适的机器学习算法或神经网络结构来构建目标辅助分类器。这个选择取决于数据的特性、任务的复杂性以及可用的计算资源。例如,如果数据是线性可分的,那么简单的线性分类器(如逻辑回归)可能就足够了;如果数据具有复杂的非线性关系,那么可能需要使用更复杂的模型(如深度神经网络),这需要根据知识模板中的实际数据结构进行适应性选择。一旦选择了合适的模型结构,计算机系统就会使用历史气象观测信息集合中的数据来训练这个模型。训练过程包括将输入特征传递给模型,比较模型的输出与实际的目标标签,然后根据比较结果调整模型的参数,以最小化预测误差。
经过足够多的迭代训练后,模型将逐渐学习到从输入特征到目标标签的映射关系,从而成为一个能够准确预测能见度等级的目标辅助分类器。这个分类器虽然在这里被称为“伪分类器”,但实际上它是一个经过训练的、能够用于辅助生成能见度分析识别信息的有效工具。
举个例子来说,假设有一个能见度监测区域A,其历史气象观测信息集合包含了1000个数据点,每个数据点都包含了系统气象数据、站点观测数据和对应的能见度等级标签。计算机系统可以选择使用深度神经网络作为目标辅助分类器的模型结构,并使用这些数据点来训练这个网络。训练完成后,这个网络就能够根据新的系统气象数据和站点观测数据来预测对应的能见度等级了。这个预测结果虽然可能不是百分之百准确的,但它为后续的能见度分析提供了有价值的参考信息。
步骤S113:对于每一历史系统气象数据,根据各个目标辅助分类器,确定历史系统气象数据相关的各个辅助能见度分类信息,并将历史系统气象数据相关的原始能见度先验标记和各个辅助能见度分类信息的增广标签集,作为历史系统气象数据相关的模板能见度先验标记。
步骤S113涉及到利用之前步骤中生成的目标辅助分类器来增强原始数据标签,从而丰富训练数据集并提高模型的泛化能力。这一步的核心在于通过多个辅助分类器的预测结果来扩充每个历史系统气象数据的标签集合。
具体来说,计算机系统遍历每一个历史系统气象数据点。对于每个数据点,它会将其输入到之前步骤S112中训练得到的各个目标辅助分类器中。这些辅助分类器会根据输入的气象数据特征生成相应的辅助能见度分类信息,即它们对于该数据点所属能见度等级的预测结果。
需要注意的是,这些辅助分类器的预测结果可能并不完全相同,因为它们可能是基于不同的算法、模型结构或训练数据子集得到的。因此,它们提供的辅助能见度分类信息可以视为对原始能见度先验标记的补充或另一种视角的解释。
接下来,计算机系统将每个历史系统气象数据点的原始能见度先验标记与各个辅助分类器生成的辅助能见度分类信息合并起来,形成一个增广的标签集合。这个增广标签集合不仅包含了原始的真实标签,还融入了模型预测的伪标签,从而提供了更丰富的监督信息供模型学习。举个例子来说,假设有一个历史系统气象数据点X,其原始能见度先验标记为“良好”。同时,有两个目标辅助分类器A和B。分类器A根据数据点X的特征预测其能见度等级为“良好”,而分类器B则预测为“一般”。在这种情况下,数据点X的增广标签集合将包括原始标签“良好”以及两个辅助标签“良好”和“一般”。
通过这种方式,步骤S113为每个历史系统气象数据点生成了一个更加全面和多样的标签集合,这有助于机器学习模型在训练过程中学习到更加复杂和细致的数据特征到标签的映射关系。最终,这将有助于提高模型在未见过的数据上的预测准确性和泛化能力。
在一种实施方式中,步骤S113,根据各个目标辅助分类器,确定历史系统气象数据相关的各个辅助能见度分类信息,具体可以包括:
步骤S1131:确定历史系统气象数据对应的目标能见度监测区域,并确定目标能见度监测区域对应的目标辅助分类器,并获取除目标能见度监测区域外的各个其他能见度监测区域对应的其他目标辅助分类器。
步骤S1131的主要任务是确定历史系统气象数据对应的目标能见度监测区域,并据此找到相应的目标辅助分类器,同时还需要获取除该目标区域外的其他能见度监测区域所对应的辅助分类器。这一步骤的目的是为后续使用这些分类器来确定历史系统气象数据中相关的辅助能见度分类信息做准备。
具体来说,计算机系统在执行步骤S1131时,首先分析历史系统气象数据的元数据或标签,以确定这些数据是属于哪一个特定的能见度监测区域的。这个确定过程可能基于数据中的地理位置信息、监测站点的标识符或其他相关标识。
一旦确定了历史系统气象数据对应的目标能见度监测区域,计算机会进一步查找并确定该区域对应的目标辅助分类器。这个目标辅助分类器是预先训练好的,专门用于处理该特定区域的气象数据,并能够输出与该区域能见度相关的分类信息。此外,计算机还会获取除目标能见度监测区域外的其他所有能见度监测区域对应的其他目标辅助分类器。这些其他目标辅助分类器同样是预先训练好的,分别对应不同的监测区域,并各自具备处理相应区域气象数据并输出能见度分类信息的能力。
例如,假设有三个能见度监测区域A、B和C,每个区域都有自己对应的辅助分类器A'、B'和C'。如果历史系统气象数据被确定为属于区域A,那么A'就是目标辅助分类器,而B'和C'则是其他目标辅助分类器。计算机会获取并使用这些分类器来进一步分析历史系统气象数据,以确定与各个区域相关的辅助能见度分类信息。
通过步骤S1131的处理,计算机系统为后续步骤S1132中利用各个辅助分类器来确定历史系统气象数据中相关的辅助能见度分类信息奠定了基础。
S1132:依据各个其他目标辅助分类器,分别确定历史系统气象数据中相关的各个辅助能见度分类信息。
步骤S1132及到使用各个其他目标辅助分类器来确定历史系统气象数据中相关的辅助能见度分类信息。这一步的目的是为了从多个角度、多个区域的气象数据中提取出与能见度相关的分类信息,从而更全面地了解气象状况对能见度的影响。具体来说,计算机系统在执行步骤S1132时,首先获取在步骤S1131中确定的各个其他目标辅助分类器。这些分类器是预先训练好的机器学习模型,每个模型都对应一个特定的能见度监测区域,并具备处理该区域气象数据的能力。这些模型可能是基于决策树、支持向量机、神经网络等算法构建的,它们能够根据输入的气象特征向量输出相应的能见度分类信息。
接下来,计算机会将历史系统气象数据输入到这些其他目标辅助分类器中。每个分类器都会根据自己的训练数据和算法逻辑,对输入的气象数据进行处理和分析。这个过程中,分类器会提取出与能见度相关的特征,如温度、湿度、风速等,并根据这些特征的值来判断气象数据所属的能见度类别。例如,假设有一个基于神经网络的辅助分类器,它接收一个包含温度、湿度和风速等特征的气象数据向量作为输入。神经网络会根据其内部的权重和偏置对这些特征进行非线性变换和组合,最终输出一个表示能见度类别的标签或概率分布。这个标签或概率分布就是该分类器对历史系统气象数据中相关能见度分类信息的判断结果。
通过步骤S1132的处理,计算机系统能够得到多个角度、多个区域的辅助能见度分类信息。这些信息可以用于后续的数据融合、模型优化或决策支持等任务中,帮助人们更准确地理解和预测气象状况对能见度的影响。同时,这些分类信息也可以作为其他气象分析或预测模型的输入特征之一,提高模型的性能和准确性。
在一种实施方式中,步骤S113中,辅助能见度分类信息中包括辅助能见度标记和对于辅助能见度标记预测得到的预测支持系数;那么,步骤S113中,确定历史系统气象数据相关的各个辅助能见度分类信息之后,还包括:
步骤S113a:获取各个辅助能见度分类信息中包括的辅助能见度标记,与历史系统气象数据相关的原始能见度先验标记之间的初始重叠标记集合,并确定初始重叠标记集合中各个能见度先验标记对应的预测支持系数。
步骤S113a中,计算机系统需要处理辅助能见度分类信息与原始能见度先验标记之间的关系,以确定两者之间的重叠部分,并进一步分析这些重叠标记的预测支持系数。
具体来说,计算机系统在执行步骤S113a时,首先获取各个辅助能见度分类信息中包含的辅助能见度标记。这些辅助能见度标记是基于不同的辅助分类器对历史系统气象数据的分析结果得出的,它们代表了根据特定算法或模型预测的能见度状况。接着,计算机将这些辅助能见度标记与历史系统气象数据相关的原始能见度先验标记进行比对。原始能见度先验标记是在没有使用辅助分类器的情况下,基于气象观测数据或其他先验知识得出的能见度标记。比对的目的是找出辅助能见度标记与原始能见度先验标记之间的重叠部分,即那些两者都认为属于同一能见度类别的标记。
在确定了重叠标记之后,计算机会进一步分析这些重叠标记的预测支持系数。预测支持系数代表了辅助分类器对于某个辅助能见度标记的预测结果的信心水平或可能性。通常,这个系数是一个介于0和1之间的概率值,越接近1表示辅助分类器对于该标记的预测结果越有信心。
例如,假设有一个辅助能见度分类信息中包含了一个标记为“低能见度”的辅助能见度标记,其预测支持系数为0.9。同时,历史系统气象数据中也有一个原始能见度先验标记为“低能见度”。在这种情况下,这两个标记就构成了一个重叠标记,并且由于辅助能见度标记的预测支持系数较高(0.9),可以认为这个重叠标记是比较可靠的。
通过执行步骤S113a,计算机系统能够确定辅助能见度分类信息与原始能见度先验标记之间的重叠标记集合,并了解这些重叠标记的预测支持系数。这为后续步骤(如步骤S113b和S113c)中进一步处理和应用这些标记提供了重要依据。
步骤S113b:在历史系统气象数据相关的原始能见度先验标记中去除初始重叠标记集合中预测支持系数达到标记过滤指标的能见度先验标记,得到处理后的原始能见度先验标记。
步骤S113b负责从历史系统气象数据的原始能见度先验标记中去除那些与辅助能见度分类信息重叠且预测支持系数达到或超过特定标记过滤指标的标记。这一步的目的是确保最终使用的能见度标记具有足够的准确性和可靠性。
具体来说,计算机系统在执行步骤S113b时,首先回顾在步骤S113a中确定的初始重叠标记集合。这个集合包含了那些既出现在原始能见度先验标记中,也出现在辅助能见度分类信息中的标记,且它们的预测支持系数也已被计算出来。接下来,根据预设的标记过滤指标,对初始重叠标记集合中的每个能见度先验标记进行筛选。标记过滤指标通常是一个阈值,用于判断预测支持系数是否足够高,以确保该标记的可靠性。例如,如果标记过滤指标设置为0.8,那么只有预测支持系数高于或等于0.8的能见度先验标记才会被考虑保留。
在筛选过程中,计算机会逐个检查初始重叠标记集合中的每个能见度先验标记的预测支持系数。如果某个标记的预测支持系数低于标记过滤指标,那么该标记将被视为不够可靠,并从原始能见度先验标记中被去除。
举个例子,假设初始重叠标记集合中有一个标记为“中等能见度”的能见度先验标记,其预测支持系数为0.75。如果标记过滤指标设置为0.8,那么这个“中等能见度”标记的预测支持系数低于过滤指标,因此它将被从原始能见度先验标记中去除。通过执行步骤S113b,计算机系统能够过滤掉那些预测支持系数较低、可能不够准确的能见度先验标记,从而确保后续使用的能见度标记具有更高的准确性和可靠性。
步骤S113c:对于处理后的原始能见度先验标记,进入到将历史系统气象数据相关的原始能见度先验标记和各个辅助能见度分类信息的增广标签集,作为历史系统气象数据相关的模板能见度先验标记的步骤进行执行。
步骤S113c中,计算机系统将处理后的原始能见度先验标记与辅助能见度分类信息的增广标签集合并,形成一个更为全面和准确的模板能见度先验标记集合。
具体来说,计算机系统在执行步骤S113c时,首先会获取在步骤S113b中处理后的原始能见度先验标记。这些标记已经经过了与辅助能见度分类信息的比对和筛选,去除了那些预测支持系数不足、可能不够准确的标记,因此具有较高的可靠性和准确性。接着,计算机会将这些处理后的原始能见度先验标记与各个辅助能见度分类信息的增广标签集进行合并。增广标签集是在辅助能见度分类信息中,除了辅助能见度标记之外,还可能包含的其他相关信息或标记,它们可以提供额外的能见度状况信息。通过合并这些标记,计算机系统能够形成一个更为丰富和全面的模板能见度先验标记集合。这个模板能见度先验标记集合在后续的气象数据分析中将发挥重要作用。它可以作为训练机器学习模型(如决策树、支持向量机、神经网络等)的输入特征之一,用于训练和优化模型对能见度状况的预测能力。同时,它也可以直接用于气象数据的分类和标注,为气象预报、气候研究等应用提供更为准确和可靠的能见度信息。
举个例子来说明,假设处理后的原始能见度先验标记中包含了一个标记为“高能见度”的标记,而某个辅助能见度分类信息的增广标签集中包含了一个表示能见度状况的数值特征(如能见度距离)。在执行步骤S113c时,计算机系统会将这两个信息合并,形成一个既包含“高能见度”标记,又包含具体能见度数值的模板能见度先验标记。这样的标记既具有语义上的明确性,又包含了具体的量化信息,对于后续的气象数据分析具有更高的价值。
步骤S114:根据历史系统气象数据、历史系统气象数据相关的模板能见度先验标记和历史站点观测数据,组建一个基础训练知识模板;
步骤S115:根据各个基础训练知识模板,组建基础训练知识模板集合。
步骤S114涉及到将不同类型的数据(历史系统气象数据、模板能见度先验标记、历史站点观测数据)整合成一个统一格式的基础训练知识模板。这个模板将为后续的模型训练提供结构化的输入。具体来说,计算机系统会按照预定的数据结构和格式,将每一组对应的历史系统气象数据、相关的模板能见度先验标记以及历史站点观测数据组合起来,形成一个完整的基础训练知识模板。这个模板是一个多维度的数据结构,其中包含了用于机器学习模型训练的所有必要信息。
例如,一个基础训练知识模板可能包含以下信息:一个特定时间点的系统气象数据(如温度、湿度、风速等),这些数据以数值或向量的形式表示;与该时间点对应的模板能见度先验标记,这是一个增广的标签集合,包括了原始能见度等级和辅助分类器预测的能见度等级;以及同一时间点的历史站点观测数据,如降雨量、气压等。通过将这些不同类型的数据整合到一个统一的模板中,步骤S114确保了机器学习模型能够以一种标准化的方式接收和处理输入数据,从而提高了训练效率和模型的准确性。
步骤S115是在步骤S114的基础上进行的,它涉及到将多个单个的基础训练知识模板组合成一个更大的集合,即基础训练知识模板集合。这个集合将作为机器学习模型训练的主要数据源。具体来说,计算机系统会遍历所有生成的基础训练知识模板,并将它们逐一添加到基础训练知识模板集合中。这个过程可能涉及到数据的存储、索引和管理,以确保集合中的每个模板都能够被有效地访问和使用。基础训练知识模板集合的构建是机器学习模型训练前的一个关键准备步骤。通过这个集合,模型能够接触到大量具有多样性和代表性的训练样本,从而学习到从输入数据到目标标签的复杂映射关系。这种映射关系的学习是机器学习模型训练的核心目标,它决定了模型在未来未见过的数据上的预测能力和泛化性能。
步骤S120:依据基础训练知识模板集合中各知识模板包括的系统气象数据知识模板,对气象数据向量表征组件进行多次内源性学习(即自监督训练),得到学习后的初始气象数据向量表征组件。
步骤S120中,使用基础训练知识模板集合对气象数据向量表征组件进行内源性学习。此阶段的目的是优化和提升气象数据向量表征组件的特征提取能力,从而更准确地从原始气象数据中捕捉关键信息。具体来说,在步骤S120中,计算机系统首先访问预先构建好的基础训练知识模板集合。这个集合包含了多个知识模板,每个模板都是基于系统气象数据构建的,并且包含了与特定气象现象或状况相关的关键特征和信息。这些知识模板在系统气象数据处理中为向量表征组件提供了学习的标准和参照。接着,利用这些知识模板对气象数据向量表征组件进行内源性学习,也即自监督训练。自监督训练是一种利用数据本身的结构或关系作为监督信号的训练方式,它不需要额外的人工标注数据,而是从数据内部发掘信息来进行学习。在这个过程中,向量表征组件会尝试提取气象数据中的特征,并与知识模板中的特征进行比对和调整,通过不断地迭代和优化,逐渐提升其特征提取的准确性和效率。
举个例子来说,假设知识模板集合中有一个模板描述了“高温干燥”天气条件下的系统气象数据特征,包括温度、湿度、风速等关键指标的取值范围或模式。在进行自监督训练时,气象数据向量表征组件会尝试从输入的气象数据中提取这些特征,并与知识模板中的特征进行比对。如果提取的特征与模板中的特征不匹配或存在较大差异,那么向量表征组件就会通过调整其内部参数和结构来优化特征提取的方式,以便更准确地捕捉“高温干燥”天气条件下的气象数据特征。
通过步骤S120的自监督训练,气象数据向量表征组件能够逐渐学习到如何从原始气象数据中提取关键特征和信息,为后续的气象数据分析、预测和决策提供强有力的支持。这个训练过程是自动化的,并且可以在大量气象数据上进行反复迭代和优化,从而不断提升向量表征组件的性能和准确性。最终得到的学习后的初始气象数据向量表征组件将被用于后续的气象数据处理任务中。
在一种实施方式中,步骤S120中,在对气象数据向量表征组件进行一次内源性学习时,完成如下步骤:
步骤S121:在基础训练知识模板集合中提取预定个数的系统气象数据知识模板,并通过气象数据向量表征组件,分别从提取的各个系统气象数据知识模板中,提取预定个数的,且关联有时间戳的模板气象数据记录点。
在步骤S121中,计算机系统从基础训练知识模板集合中提取预定个数的系统气象数据知识模板,并对这些模板进行进一步的数据提取和处理。这一步骤的目的是为后续的训练过程准备必要的数据和模板。
具体来说,首先访问存储在内存或数据库中的基础训练知识模板集合。这个集合包含了大量的系统气象数据知识模板,每个模板都是基于历史气象数据和相关领域知识构建的,反映了不同气象现象或状况下的数据特征和模式。
接下来,根据预设的提取规则或算法,从集合中选择出预定个数的知识模板。这个预定个数可以根据具体的训练需求、计算资源或时间限制来确定。例如,如果训练目标是快速验证一个新的气象数据向量表征组件的有效性,那么可以选择提取较少的知识模板进行初步的训练;而如果目标是构建一个高性能的气象预测模型,则可能需要提取更多的知识模板以获得更全面的训练数据。
一旦提取了预定个数的知识模板,计算机会利用气象数据向量表征组件对这些模板进行进一步的数据提取。这个过程涉及到将原始的气象数据(如温度、湿度、风速等)转换为计算机可以处理的数字或向量形式。对于每个知识模板,气象数据向量表征组件会提取出预定个数的、且关联有时间戳的模板气象数据记录点。这些记录点不仅包含了气象数据的数值信息,还通过时间戳反映了数据在时间序列上的变化和关联。例如,一个模板气象数据记录点可以表示在某个特定时间点(如2023年4月1日14:00:00)采集到的温度、湿度和风速等数据的组合。
通过这种方式,步骤S121为后续的内源性学习提供了基础数据和结构化的输入。这些数据将用于构建内聚知识模板对(正样本对)和离散知识模板对(负样本对),进而通过对比学习的方式优化气象数据向量表征组件的性能。
其中,作为一种实施方式,步骤S121中,分别从提取的各个系统气象数据知识模板中,提取预定个数的关联有时间戳的模板气象数据记录点时,完成如下步骤中的其中一个:
步骤S121a:对于提取的每一系统气象数据知识模板,根据系统气象数据知识模板对应的时间跨度(即时长),设置系统气象数据知识模板对应的目标节点(即目标时间戳),并在系统气象数据知识模板上目标节点对应的模板气象数据记录点开始,提取预定个数且关联有时间戳的模板气象数据记录点。
或者,步骤S121b:对于提取的每一系统气象数据知识模板,根据系统气象数据知识模板对应的时间跨度,将系统气象数据知识模板划分为预定个数的知识模板子气象数据,分别在各个知识模板子气象数据中任意提取一个模板气象数据记录点,得到预定个数的关联有时间戳的模板气象数据记录点。
在步骤S121a中,计算机系统对从基础训练知识模板集合中提取出的每一个系统气象数据知识模板进行进一步处理,以获取特定数量和与时间戳相关联的模板气象数据记录点。这个过程是确保后续机器学习模型训练的数据质量和一致性的关键。具体来说,计算机系统首先识别每个系统气象数据知识模板的时间跨度,即该模板所涵盖的时间范围或时长。这个时间跨度是重要的,因为它决定了模板内气象数据的丰富程度和变化范围。例如,一个涵盖数天或数周的知识模板可能包含了多种天气状况的数据,而一个仅涵盖几小时的知识模板则可能只反映了短时间内的特定天气现象。接下来,根据每个知识模板的时间跨度,计算机会设置一个或多个目标节点。这些目标节点是在时间跨度内选定的特定时间点,用于从模板中提取气象数据记录点。目标节点的选择可以是基于等时间间隔的,也可以是基于某些特定的数据特征或事件。例如,如果知识模板的时间跨度为一周,那么目标节点可能被设置为每天的中午12点,或者根据天气变化的重要时刻(如暴风雨开始和结束的时间点)来设置。一旦确定了目标节点,从每个知识模板中开始提取与这些目标节点相关联的气象数据记录点。这些记录点不仅包含了气象数据的具体数值(如温度、湿度、风速等),还包含了与每个数据点相关联的时间戳信息。时间戳信息对于后续的数据分析和模型训练至关重要,因为它允许模型理解数据在时间上的变化和关联。
例如,假设一个系统气象数据知识模板涵盖了2023年4月1日至4月7日的数据,且每天都有一个与中午12点相关联的数据记录点。在步骤S121a中,计算机可以选择每天的这个时间点作为目标节点,并提取出这七天内每天中午12点的气象数据记录点。这样,就得到了一个包含七个关联有时间戳的模板气象数据记录点的集合,这些记录点可以用于后续的机器学习模型训练。
步骤S121a确保了从每个系统气象数据知识模板中提取出的数据记录点不仅数量上满足要求,而且在时间上也具有代表性和关联性。这为后续的机器学习模型提供了高质量的训练数据,有助于模型更好地学习和理解气象数据的内在规律和模式。
在步骤S121b中,计算机系统采取了一种不同于步骤S121a的策略来提取关联有时间戳的模板气象数据记录点。这个步骤的核心在于将系统气象数据知识模板根据其时间跨度进行划分,并从每个划分后的子集中提取数据。
具体来说,首先,计算机系统会识别并确定每个系统气象数据知识模板的时间跨度。时间跨度是指模板所涵盖的时间范围,它可以是几天、几周、几个月甚至更长。了解时间跨度对于后续的数据处理至关重要,因为它决定了数据的分布和变化范围。接着,根据这个时间跨度,计算机系统会将每个系统气象数据知识模板划分为预定个数的知识模板子气象数据。这个过程类似于将一个大的时间段切割成多个小的时间段。每个知识模板子气象数据都包含了原始模板中的一部分数据,且这些数据在时间上是连续的。例如,如果一个知识模板涵盖了整整一个月的数据,那么它可以被划分为四个子气象数据,每个子气象数据包含一周的数据。然后,计算机系统会在每个划分后的知识模板子气象数据中任意提取一个模板气象数据记录点。这个记录点代表了该子气象数据中的一个特定时刻的气象状况,包括各种气象参数(如温度、湿度、风速等)以及与之关联的时间戳。由于每个子气象数据都是从原始模板中划分出来的,因此提取的记录点在时间上也是有序的。
通过这种方式,计算机系统可以从每个系统气象数据知识模板中提取出预定个数的关联有时间戳的模板气象数据记录点。这些记录点不仅具有代表性,而且能够反映原始模板中的时间变化和气象特征。这种提取策略有助于确保数据的多样性和均衡性,为后续的机器学习任务提供高质量的训练数据。
举例来说,假设有一个涵盖了一个月数据的系统气象数据知识模板,希望从中提取4个关联有时间戳的记录点。根据步骤S121b,可以首先将这个月的数据划分为4个子气象数据,每个子气象数据包含一周的数据。然后,在每个子气象数据中随机选择一个记录点进行提取。最终,将得到4个分别代表不同周的气象状况的记录点,每个记录点都包含详细的气象参数和时间戳信息。
步骤S122:通过气象数据向量表征组件,根据属于同一系统气象数据知识模板的各个模板气象数据记录点组建内聚知识模板对,并根据属于不同系统气象数据知识模板的各个模板气象数据记录点组建离散知识模板对,其中,一个属于不同中包括两个模板气象数据记录点。
在步骤S122中,计算机系统利用气象数据向量表征组件对之前提取的模板气象数据记录点进行进一步的处理,以构建用于内源性学习的样本对。这一步骤是机器学习中的关键步骤,特别是当采用对比学习等自监督学习方法时。
首先,计算机系统会根据步骤S121中提取的模板气象数据记录点,识别出哪些记录点属于同一系统气象数据知识模板。这些记录点由于在相同或相似的气象条件下采集,因此它们之间的关联性和一致性较高。计算机系统会将这些属于同一模板的记录点两两组合,形成“内聚知识模板对”或“正样本对”。例如,如果在两个不同的时间点采集到的气象数据都反映了晴朗的天气状况(高能见度),那么这两个数据点就可能被组成一个正样本对。
内聚知识模板对的构建是基于一个假设:属于同一模板的数据点在特征空间中的表示应该是相近的。通过让模型学习这种相近性,可以使其更好地捕捉气象数据的内在结构和模式。其次,计算机系统还会从属于不同系统气象数据知识模板的记录点中构建“离散知识模板对”或“负样本对”。这些记录点反映了不同的气象状况或模式,因此它们在特征空间中的表示应该是相互远离的。例如,一个反映晴朗天气的数据点和一个反映暴雨天气的数据点就可能被组成一个负样本对。
离散知识模板对的构建则是基于另一个假设:属于不同模板的数据点在特征空间中的表示应该是相互分离的。通过让模型学习这种分离性,可以使其更好地区分不同的气象状况和模式。
在构建完这些样本对之后,计算机系统就可以利用它们对气象数据向量表征组件进行内源性学习(自监督训练)了。具体来说,它会调整组件的参数和结构,使得对于正样本对中的两个数据点,它们的特征表示尽可能相近;而对于负样本对中的两个数据点,它们的特征表示则尽可能相互远离。通过这种方式,气象数据向量表征组件可以逐渐学习到如何从原始气象数据中提取出有意义的特征和模式。
需要注意的是,在实际应用中,正样本对和负样本对的构建方式可以更加复杂和多样化。例如,除了简单的两两组合外,还可以考虑使用数据增强技术来生成更多的样本对;或者根据气象数据的时序性和空间性特点来设计更复杂的样本对构建策略。但无论如何设计,其核心目标都是为了使模型能够更好地学习到气象数据的内在结构和模式。
步骤S123:根据内聚知识模板对和离散知识模板对对气象数据向量表征组件进行多次内源性循环学习,直至达到预设的单次优化结束判断标准。
在步骤S123中,计算机系统利用先前构建的内聚知识模板对(正样本对)和离散知识模板对(负样本对)对气象数据向量表征组件进行多次内源性循环学习。内源性循环学习,也被称为自监督训练,是一种通过模型自身产生的监督信号来进行优化的方法。在这个过程中,模型试图学习如何最好地表示输入数据,以便在正样本对之间产生相似的输出,而在负样本对之间产生不同的输出。
具体来说,将内聚知识模板对和离散知识模板对作为输入数据,通过气象数据向量表征组件进行处理。该组件是一个神经网络或机器学习模型,其任务是提取输入数据的特征,并将其转换为向量表示。这些向量表示随后被用于计算样本对之间的相似性或距离。在每次循环学习过程中,计算机会根据内聚知识模板对和离散知识模板对的相似性或距离计算结果来调整气象数据向量表征组件的参数。如果两个属于同一模板(正样本对)的数据点的向量表示在特征空间中距离较远,或者两个属于不同模板(负样本对)的数据点的向量表示在特征空间中距离较近,那么计算机会通过调整模型的参数来减小这种不一致性。
例如,假设有一个简单的气象数据向量表征组件,它是一个浅层的神经网络。在第一次循环学习中,该组件可以随机初始化其参数,并对输入的内聚知识模板对和离散知识模板对进行特征提取。然后,计算机会根据提取的特征计算样本对之间的相似度或距离,并发现某些正样本对的相似度较低,而某些负样本对的相似度较高。为了纠正这种情况,计算机会调整神经网络的权重和偏置,以便在下一次循环学习中产生更准确的输出。
这个过程会持续进行多次,直到达到预设的单次优化结束判断标准。这个标准可以是一个固定的迭代次数、一个收敛的阈值或一个验证集上的性能指标等。通过多次循环学习,气象数据向量表征组件可以逐渐学习到如何从原始气象数据中提取出有意义的特征和模式,并为后续的气象数据分析、预测和决策提供强有力的支持。
步骤S123通过利用内聚知识模板对和离散知识模板对对气象数据向量表征组件进行自监督训练,提升了该组件的特征提取能力和表示学习能力。这种能力的提升对于后续的气象数据处理任务至关重要,因为它直接影响到模型对未知数据的泛化能力和预测准确性。
步骤S130:依据基础训练知识模板集合中各系统气象数据知识模板相关的站点观测数据知识模板,对站点数据向量表征组件进行多次内源性学习,得到学习后的初始站点数据向量表征组件。
在步骤S130中,计算机系统利用基础训练知识模板集合中的系统气象数据知识模板相关的站点观测数据知识模板,对站点数据向量表征组件进行多次内源性学习。这一步骤的目的是优化站点数据向量表征组件,使其能够更有效地从站点观测数据中提取关键特征,为后续的气象分析和预测提供准确的数据基础。
具体来说,站点数据向量表征组件是一个网络组件,负责将原始的站点观测数据转换为向量表示。因为原始数据往往包含大量的冗余信息和噪声,直接用于模型训练可以导致效果不佳。通过向量表征,可以将数据映射到一个低维空间,同时保留其关键特征,使得模型更容易学习到数据的内在规律。内源性学习是一种自监督的学习方式,它利用数据本身的内在结构和关系来生成监督信号,而不需要额外的标注数据。在这个过程中,计算机系统会根据站点观测数据知识模板之间的相似性和差异性来调整站点数据向量表征组件的参数,使其能够更好地区分不同的数据模式。
例如,假设有两个站点观测数据知识模板A和B,它们分别代表了两种不同的天气状况。在内源性学习过程中,计算机系统会尝试通过调整站点数据向量表征组件的参数,使得A和B在向量空间中的距离尽可能远。这样,当面对新的站点观测数据时,该组件就能够根据其在向量空间中的位置来判断其所属的天气状况。这个过程会进行多次迭代,每次迭代都会根据当前的表征效果来调整组件的参数。最终,得到一个学习后的初始站点数据向量表征组件,它能够有效地从站点观测数据中提取关键特征,并为后续的气象分析和预测提供有力的支持。需要注意的是,这里的站点观测数据知识模板可以是根据历史数据生成的模板,也可以是通过其他方式获得的具有代表性的数据模板。而站点数据向量表征组件的具体实现方式则可以根据实际需求来选择,例如可以使用卷积神经网络(CNN)或者使用循环神经网络(RNN)来处理。对站点数据向量表征组件进行多次内源性学习,得到学习后的初始站点数据向量表征组件的原理可以参照步骤S120中,对气象数据向量表征组件进行内源性学习的过程。
步骤S140:依据基础训练知识模板集合,对至少涵盖初始气象数据向量表征组件和初始站点数据向量表征组件的初始多源数据能见度识别模型,进行多次示例驱动学习,得到基础训练后的多源数据能见度识别模型。
在步骤S140中,计算机系统将利用基础训练知识模板集合,对初始多源数据能见度识别模型进行有监督学习,也常被称为示例驱动学习。此模型至少包含初始气象数据向量表征组件和初始站点数据向量表征组件。这一步骤的核心目标是通过学习大量标注过的样本,使模型能够准确地从多源数据中识别出能见度的相关信息。具体来说,初始多源数据能见度识别模型是一个集成了多种数据处理和分析功能的复杂模型。其中,初始气象数据向量表征组件负责将原始的气象数据转换为向量形式,以便于模型进行数学运算和逻辑处理。同样地,初始站点数据向量表征组件也承担着将站点观测数据转换为向量的任务。这两个组件共同构成了模型的数据输入层,为后续的数据分析和特征提取提供了基础。
在进行有监督学习时,计算机系统会从基础训练知识模板集合中选取大量的标注样本。这些样本包含了各种不同的气象条件和站点观测数据,以及与之对应的能见度标签。通过学习这些样本,模型能够逐渐建立起从输入数据到输出标签的映射关系。学习过程中,计算机系统会不断地调整模型的参数和结构,以最小化预测结果与真实标签之间的差异。这种差异通常通过损失函数来衡量,如均方误差、交叉熵等。随着迭代次数的增加,模型的预测能力会逐渐提高,直到达到预定的性能指标或收敛条件。
最终,经过基础训练后的多源数据能见度识别模型将具备从多源数据中准确识别能见度的能力。它可以根据输入的气象数据和站点观测数据,输出对应的能见度预测结果。这些结果对于气象预报、交通安全等领域具有重要的应用价值。
需要注意的是,这里的有监督学习是一种依赖于标注数据的学习方法。因此,基础训练知识模板集合的质量和数量对模型的训练效果具有决定性的影响。在实际应用中,需要确保这些模板具有代表性、准确性和多样性,以充分发挥模型的学习能力和泛化性能。
在一种实施方式中,初始多源数据能见度识别模型包括初始气象数据向量表征组件、初始站点数据向量表征组件、用于融合站点数据特征和系统气象数据特征的特征整合组件,以及分类器。
基于此,在步骤S140中,在初始多源数据能见度识别模型的一次示例驱动学习中,具体可以包括:
步骤S141:将一个批中的系统气象数据知识模板和对应的站点观测数据知识模板输入初始多源数据能见度识别模型,其中,将系统气象数据知识模板输入初始气象数据向量表征组件,将站点观测数据知识模板输入初始站点数据向量表征组件;
步骤S142:将初始气象数据向量表征组件输出的各个系统气象数据特征的融合特征,与站点数据向量表征组件输出的站点数据特征加载到特征整合组件,得到融合后的系统气象数据特征和站点数据特征;
步骤S143:将特征整合组件输出的特征融合结果加载到分类器,得到对于各个样本气象观测信息输出的预测能见度分类结果;
步骤S144:结合能见度分类结果与对应的模板能见度先验标记之间的误差,依据二元交叉熵代价函数获取代价值,以及根据代价值优化初始多源数据能见度识别模型的模型参变量。
例如,初始多源数据能见度识别模型包括初始气象数据向量表征组件、初始站点数据向量表征组件、用于融合站点数据特征和系统气象数据特征的特征整合组件和分类器。特征整合组件例如是完成特征拼接的神经网络或者交叉注意力网络。分类器例如是包含仿射网络和激活层的神经网络架构。具体地,例如,初始气象数据向量表征组件为卷积神经网络层;初始站点数据向量表征组件为卷积神经网络层;用于融合站点数据特征和系统气象数据特征的特征整合组件为交叉注意力网络层;分类器包括仿射层和激活层,以完成多分类。
在对初始多源数据能见度识别模型进行示例驱动学习时,假设一个批中包括输入6个基础训练知识模板,则从基础训练知识模板集合中提取6个系统气象数据知识模板和6个站点观测数据知识模板,作为初始多源数据能见度识别模型的输入。例如,将6个系统气象数据知识模板输入初始气象数据向量表征组件;将6个站点观测数据知识模板输入初始站点数据向量表征组件;以将初始气象数据向量表征组件输出的各个系统气象数据特征的融合特征,与站点数据向量表征组件输出的站点数据特征加载到特征整合组件,获得融合后的系统气象数据特征和站点数据特征;将特征整合组件输出的特征整合结果加载到分类器,得到对于各个样本气象观测信息输出的预测能见度分类结果;通过能见度分类结果与对应的模板能见度先验标记之间的误差,依据二元交叉熵代价函数获取代价值,并根据代价值进行逆向传播以优化初始多源数据能见度识别模型的模型参变量。
具体而言,在步骤S141中,计算机系统将一个批次(batch)中的系统气象数据知识模板和对应的站点观测数据知识模板输入到初始多源数据能见度识别模型中。这个过程旨在通过大量的数据输入,使模型能够学习到从输入数据到目标输出之间的映射关系。计算机系统选取一个批次的系统气象数据知识模板,这些模板是从大量的气象数据中提取出来的,具有代表性和多样性。同时,计算机系统还会获取与这些系统气象数据知识模板相对应的站点观测数据知识模板。这些站点观测数据知识模板包含了地面观测站点收集的各种气象要素信息,如温度、湿度、风速等。接着,计算机系统将系统气象数据知识模板输入到初始气象数据向量表征组件中。这个组件是一个神经网络模型,负责将原始的气象数据转换为向量表示,以便后续的处理和分析。通过向量表征,原始数据中的关键特征和模式得以保留和提取。与此同时,计算机系统也将站点观测数据知识模板输入到初始站点数据向量表征组件中。这个组件同样是一个神经网络模型,它的作用是将站点观测数据转换为向量表示,以便于与系统气象数据进行融合和分析。在这一步骤中,初始多源数据能见度识别模型接收到了两种类型的数据输入:系统气象数据和站点观测数据。这两种数据在后续的步骤中将被进一步处理和整合,以提取出对能见度识别有用的特征和信息。这里的“批次”是一个重要的概念。在机器学习中,由于数据集通常很大,无法一次性将所有数据加载到内存中进行训练。因此,通常会将数据集分成若干个小的批次(batch),每个批次包含一定数量的样本。模型在训练时会依次处理这些批次,通过计算每个批次的损失函数值来更新模型的参数。这种处理方式不仅可以减少内存占用,还可以提高模型的训练效率。
在步骤S142中,计算机系统将初始气象数据向量表征组件输出的各个系统气象数据特征的融合特征,以及站点数据向量表征组件输出的站点数据特征,加载到特征整合组件中。这个步骤的目的是将来自不同数据源的特征进行融合,以得到一个更全面、更具代表性的特征集合,供后续的分类器使用。具体来说,初始气象数据向量表征组件已经将原始的系统气象数据转换为了向量形式,并从中提取出了关键的气象特征。这些特征可能包括温度、湿度、风速、风向等多个维度,每个维度都用一个向量来表示。同样地,初始站点数据向量表征组件也将站点观测数据转换为了向量形式,并提取出了与能见度相关的关键特征。
特征整合组件的作用是将这两组特征进行融合。融合的方式可以是简单的拼接,也可以是更复杂的运算或变换。例如,可以将气象特征向量和站点特征向量直接拼接成一个更长的向量,或者通过某种函数将它们组合成一个新的特征向量。这个新的特征向量将包含来自两个数据源的信息,能够更全面地描述气象条件和站点观测数据对能见度的影响。融合后的特征向量将被传递给后续的分类器。分类器是一个机器学习模型,它的作用是根据输入的特征向量来预测能见度的分类结果。在步骤S142中,特征整合组件的输出为分类器提供了更丰富、更准确的输入信息,有助于提高分类器的预测性能。需要注意的是,特征整合的方式和具体实现取决于实际的应用场景和数据特性。在实际操作中,可能需要根据实验结果和性能评估来调整特征整合的方式和参数,以达到最佳的预测效果。
在步骤S143中,计算机系统将特征整合组件输出的特征融合结果加载到分类器中,以得到对于各个样本气象观测信息输出的预测能见度分类结果。这一步骤是机器学习模型中的关键环节,其中分类器扮演了根据输入特征做出预测的角色。具体来说,分类器是一个经过训练的机器学习模型,它能够接收特征融合结果作为输入,并根据这些特征对能见度进行分类预测。在这个过程中,计算机系统将特征整合组件输出的特征向量传递给分类器。这些特征向量包含了从系统气象数据和站点观测数据中提取的关键信息,是分类器做出准确预测的基础。
分类器可以采用多种算法或模型来实现,具体取决于问题的复杂性和数据的特性。例如,分类器可以是一个决策树模型、支持向量机(SVM)、随机森林模型或深度神经网络等。在上述的示例中,分类器包括全连接层(仿射层)和激活层(例如sigmoid)。在训练过程中,神经网络会根据输入的特征向量和对应的标签来调整其内部参数,以最小化预测误差。一旦训练完成,神经网络就可以接收新的特征向量作为输入,并输出预测的能见度分类结果。
需要注意的是,分类器的预测结果是一个概率分布或类别标签,表示了样本属于各个能见度类别的可能性。例如,在一个三分类问题中(如低能见度、中等能见度、高能见度),分类器可以输出一个三维的概率向量[0.1,0.7,0.2],表示样本属于中等能见度的概率最高。此外,分类器的性能和准确性需要通过评估指标来进行衡量和优化。常见的评估指标包括准确率、召回率、F1分数等。在实际应用中,还需要考虑模型的泛化能力、鲁棒性以及对新数据的适应性等因素。
在步骤S144中,计算机系统将结合能见度分类结果与对应的模板能见度先验标记之间的误差,依据二元交叉熵代价函数获取代价值,并根据该代价值优化初始多源数据能见度识别模型的模型参变量。这一步骤是机器学习模型训练中的关键部分,它涉及到误差计算、代价函数的应用以及模型参数的优化。具体来说,计算机系统首先会比较分类器输出的能见度分类结果与已知的模板能见度先验标记之间的差异。这些先验标记是事先标注好的真实结果,用于指导模型的训练。误差的计算可以采用多种方式,比如均方误差、交叉熵等,这里使用的是二元交叉熵代价函数。
二元交叉熵代价函数是一种常用于二分类问题的代价函数,它衡量了模型预测的概率分布与真实概率分布之间的差异。在能见度识别问题中,可以将能见度分为两类(如低能见度和高能见度),或者将多分类问题通过某种方式转换为二分类问题来处理。二元交叉熵代价函数的数学表达式为:
其中,J是代价函数值,m是样本数量,y(i)是第(i)个样本的真实标签(0或1),a(i)是模型对第(i)个样本的预测输出(介于0和1之间的概率值)。
通过计算代价函数值,计算机系统可以量化模型预测结果与真实结果之间的不一致程度。代价函数值越小,说明模型的预测越准确。接下来,计算机系统将利用这个代价值来优化模型的参数。优化的目标是调整模型的参数(如神经网络的权重和偏置),使得在下一次迭代中模型能够做出更准确的预测,即减小代价函数的值。优化算法可以采用梯度下降、随机梯度下降、Adam等常见的优化算法。这些算法会根据代价值的梯度信息来更新模型的参数,以逐步逼近最优解。通过多次迭代训练,模型的性能将逐渐提升,最终得到一个能够准确识别能见度的多源数据能见度识别模型。
在一种实施方式中,基础训练后的多源数据能见度识别模型中至少涵盖基础训练后的气象数据向量表征组件、基础训练后的站点数据向量表征组件,以及基础训练后的分类器时,当确定模型细化调校时设置的能见度先验标记与基础训练后的分类器中设置的能见度先验标记不匹配(即未收敛)时,对基础训练后的多源数据能见度识别模型进行模型细化调校,完成如下步骤,得到目标多源数据能见度识别模型:
步骤S1:获取细化调校知识模板集合,其中,每一细化调校知识模板中包括一个细化调校系统气象数据知识模板、细化调校系统气象数据知识模板相关的细化调校站点观测数据知识模板和细化调校模板能见度先验标记。
步骤S1的目的是收集特定于模型细化调校阶段的数据模板,以进一步提升已训练模型的性能。这些细化调校知识模板是多源数据能见度识别模型在基础训练后进一步适应特定场景或提升精度的关键。具体来说,每一个细化调校知识模板都包含三个主要部分:细化调校系统气象数据知识模板、与该系统气象数据相关的细化调校站点观测数据知识模板,以及对应的细化调校模板能见度先验标记。
细化调校系统气象数据知识模板是指经过筛选和处理的系统气象数据,这些数据在基础训练阶段可能未被涵盖,或者对于模型的性能提升至关重要。例如,某些极端天气条件下的气象数据可能对于提高模型在特定情况下的识别准确率至关重要。细化调校站点观测数据知识模板则是与上述系统气象数据相对应的地面观测站点收集的数据。这些数据同样经过筛选和处理,以确保与模型细化调校的目标一致。例如,在特定地形或气候条件下的站点观测数据可能对于模型在这些特定条件下的性能至关重要。细化调校模板能见度先验标记是为上述两组数据提供的真实能见度标记。这些标记是基于实际观测或专家判断得出的,用于在模型细化调校过程中指导模型的优化方向。例如,对于一组特定的气象数据和站点观测数据,其对应的能见度先验标记可能是“低能见度”或“高能见度”。
在获取这些细化调校知识模板集合后,计算机系统将利用这些数据进行模型的进一步训练和调优,以提升模型在特定场景下的性能和准确度。这通常涉及对模型参数的微调以及对模型结构的优化等操作。通过这一过程,可以得到一个更加精确和可靠的目标多源数据能见度识别模型。
步骤S2:根据模型细化调校时的各个能见度先验标记,更新基础训练后的分类器中设置的能见度先验标记。
具体来说,当进入模型细化调校阶段,并确定了新的能见度先验标记集合后,计算机系统将首先访问基础训练后的多源数据能见度识别模型中的分类器组件。这个分类器组件在之前的基础训练阶段已经被赋予了一组能见度先验标记,这些标记用于指导模型的学习和预测过程。然而,在细化调校阶段,为了进一步提升模型的性能和精度,可以引入新的数据集或调整数据的处理方式,这导致原有的能见度先验标记可能不再适用。因此,步骤S2的目标是根据细化调校时确定的新先验标记,对分类器中的标记进行更新。
更新的过程涉及到替换或修改分类器中原有的先验标记值。例如,如果原有的能见度先验标记是基于简单的气象条件划分(如“晴天”、“阴天”),而在细化调校阶段引入了更复杂的气象分类(如“雾霾天气”、“沙尘暴天气”),那么分类器中的先验标记就需要根据新的气象分类进行更新。这一步骤的实现可以通过加载基础训练后的模型,找到分类器组件中的先验标记参数,并将这些参数替换为新的值。这个过程需要确保新的先验标记与细化调校知识模板集合中的标记完全对应,以保证模型在后续训练中的准确性和一致性。
步骤S3:依据细化调校知识模板集合,对更新后的多源数据能见度识别模型进行多次模型细化调校,得到细化调校学习后的目标多源数据能见度识别模型。
步骤S3中,计算机系统将利用之前获取的细化调校知识模板集合,对模型进行有针对性的训练和优化。具体来说,计算机系统按照细化调校知识模板集合中的每一个模板,提取出相应的系统气象数据、站点观测数据以及对应的能见度先验标记。这些数据将作为输入,被送入到已经更新过先验标记的分类器中进行训练。在训练过程中,模型会根据输入的数据和对应的标记,调整其内部的参数和结构,以使得模型的预测结果更加接近真实的能见度情况。
举个例子,假设细化调校知识模板集合中包含了一个在雾霾天气下的模板。这个模板中包含了雾霾天气下的系统气象数据(如温度、湿度、风速等)、站点观测数据(如能见度仪的读数)以及对应的能见度先验标记(如“低能见度”)。在训练过程中,模型会尝试学习这些数据之间的关联和模式,以便在未来遇到类似的雾霾天气时,能够准确地预测出低能见度的情况。
需要注意的是,步骤S3中的模型细化调校是一个迭代的过程。计算机系统会多次重复上述的训练步骤,每次训练都会使用细化调校知识模板集合中的一部分数据。通过不断地迭代训练,模型可以逐渐学习到更多的特征和模式,从而提高其在各种场景下的预测性能。最终,经过足够多的迭代训练后,计算机系统将得到一个细化调校学习后的目标多源数据能见度识别模型。这个模型不仅继承了基础训练模型的知识和能力,还针对特定的任务和场景进行了优化和调整,因此具有更高的性能和准确性。在未来的实际应用中,这个模型将能够提供更准确、更可靠的能见度预测服务。基础学习后的模型中至少涵盖有基础学习后的气象数据向量表征组件、基础学习后的站点数据向量表征组件,以及基础学习后的分类器,其中,基础学习后的气象数据向量表征组件是在基础训练环节的示例驱动学习时,基于初始气象数据向量表征组件训练得到,基础学习后的站点数据向量表征组件是在基础训练环节的示例驱动学习时,基于初始站点数据向量表征组件训练得到,基础学习后的分类器是在基础训练环节的示例驱动学习过程中,根据初始多源数据能见度识别模型中的初始分类器训练得到。
作为模型细化调校的一种方式,在不改变基础学习后的多源数据能见度识别模型架构的前提下进行模型细化调校。
在确定相较于基础训练环节设置的各个能见度先验标记,在应用时能见度先验标记的数量和各个能见度先验标记的内容都相同,换言之,模型细化调校时的能见度先验标记与基础学习后的分类器中的能见度先验标记匹配时,则在不对基础学习后的多源数据能见度识别模型的架构进行更改的前提下,进行模型细化调校。
计算机系统获取细化调校知识模板集合,其中,每一细化调校知识模板中包括一个细化调校系统气象数据知识模板、细化调校系统气象数据知识模板相关的细化调校站点观测数据知识模板和细化调校模板能见度先验标记;依据细化调校知识模板集合,对获取的基础学习后的多源数据能见度识别模型进行多次模型细化调校,得到细化调校学习后的目标多源数据能见度识别模型。
作为模型细化调校的另一种方式,对基础学习后的多源数据能见度识别模型中的目标分类器进行针对性调节后进行模型细化调校。
计算机系统在确定相较于基础训练环节设置的各个能见度先验标记,能见度先验标记的数量和各个能见度先验标记的内容不一致,换言之,确定模型细化调校时的能见度先验标记与基础学习后的分类器中的能见度先验标记不同时,计算机系统在对基础学习后的多源数据能见度识别模型中的模型架构进行更改的前提下进行模型细化调校,得到目标多源数据能见度识别模型。计算机系统获取细化调校知识模板集合,其中,每一细化调校知识模板中包括一个细化调校系统气象数据知识模板、细化调校系统气象数据知识模板相关的细化调校站点观测数据知识模板和细化调校模板能见度先验标记;计算机系统再根据模型细化调校时的各个能见度先验标记,更新基础学习后的多源数据能见度识别模型中的分类器,依据细化调校知识模板集合,对更新后的多源数据能见度识别模型进行多次模型细化调校,得到细化调校学习后的目标多源数据能见度识别模型。计算机系统在确定能见度先验标记的数量和内容改变后,根据能见度先验标记的数量和内容,组建细化调校知识模板;根据真实的能见度先验标记的数量和内容对基础学习后的多源数据能见度识别模型中的分类器进行更新;依据细化调校知识模板,对更新后的基础学习后的多源数据能见度识别模型进行多次模型细化调校,得到细化调校学习后的目标多源数据能见度识别模型。
如此可变地对基础学习后的多源数据能见度识别模型进行更新适应,同时因为基础训练过程中已经对基础学习后的系统气象数据特征和站点数据特征的提取组件进行基础训练;模型细化调校时只需要训练对新的能见度先验标记的归一关联,基础学习后的多源数据能见度识别模型的泛化性高,模型细化调校的方式简单高效。进一步的,计算机系统得到在实际处理过程中进行视频分类的目标多源数据能见度识别模型之后,将拟分析系统气象数据和拟分析站点观测数据加载到该目标多源数据能见度识别模型中,得到目标多源数据能见度识别模型输出的能见度分析识别信息。
本申请实施例还提供了一种计算机系统,如图2所示,计算机系统100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,计算机系统100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该计算机系统100的结构并不构成对本申请实施例的限定。处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种计算机系统,本申请实施例中的计算机系统包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,实现上述方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于多源数据融合和AI的气象质量数据分析方法,其特征在于,包括:
获取拟分析系统气象数据,并确定所述拟分析系统气象数据相关的拟分析站点观测数据;
将所述拟分析系统气象数据和所述拟分析站点观测数据加载到训练好的目标多源数据能见度识别模型中,得到所述目标多源数据能见度识别模型输出的能见度分析识别信息,其中,所述目标多源数据能见度识别模型是对基础训练后的多源数据能见度识别模型,进行模型细化调校后获得的机器学习模型;
其中,所述多源数据能见度识别模型的基础训练过程包括以下步骤:
获取基础训练知识模板集合,所述基础训练知识模板集合中每一基础训练知识模板包括一个系统气象数据知识模板、所述系统气象数据知识模板相关的站点观测数据知识模板和模板能见度先验标记;
依据所述基础训练知识模板集合中各知识模板包括的系统气象数据知识模板,对气象数据向量表征组件进行多次内源性学习,得到学习后的初始气象数据向量表征组件;
依据所述基础训练知识模板集合中各系统气象数据知识模板相关的站点观测数据知识模板,对站点数据向量表征组件进行多次内源性学习,得到学习后的初始站点数据向量表征组件;
依据所述基础训练知识模板集合,对至少涵盖所述初始气象数据向量表征组件和所述初始站点数据向量表征组件的初始多源数据能见度识别模型,进行多次示例驱动学习,得到基础训练后的多源数据能见度识别模型。
2.如权利要求1所述的方法,其特征在于,所述获取基础训练知识模板集合,包括:
根据各个能见度监测区域分别对应的历史气象观测信息,生成各能见度监测区域对应的历史气象观测信息集合;其中,每一历史气象观测信息中包括一个历史系统气象数据、所述历史系统气象数据相关的历史站点观测数据和原始能见度先验标记;
对于每一能见度监测区域,根据所述能见度监测区域对应的历史气象观测信息,进行示例驱动学习后得到所述能见度监测区域对应的目标辅助分类器;
对于每一历史系统气象数据,根据各个目标辅助分类器,确定所述历史系统气象数据相关的各个辅助能见度分类信息,并将所述历史系统气象数据相关的原始能见度先验标记和各个辅助能见度分类信息的增广标签集,作为所述历史系统气象数据相关的模板能见度先验标记;
根据所述历史系统气象数据、所述历史系统气象数据相关的模板能见度先验标记和历史站点观测数据,组建一个基础训练知识模板;
根据各个基础训练知识模板,组建所述基础训练知识模板集合。
3.如权利要求2所述的方法,其特征在于,所述根据各个能见度监测区域分别对应的历史气象观测信息,生成各能见度监测区域对应的历史气象观测信息集合,包括:
根据各能见度监测区域中监测时间在预设时间区间内的各个初始气象观测信息,组建初始气象观测信息集合,每一初始气象观测信息中包括一个初始系统气象数据、所述初始系统气象数据相关的历史站点观测数据和原始能见度先验标记;
在所述初始气象观测信息集合中逐个提取一个初始气象观测信息,并根据提取的初始气象观测信息完成如下单一化筛选,直至所述初始气象观测信息集合中没有未提取的初始气象观测信息时结束:
分别确定所述提取的初始气象观测信息中的初始系统气象数据,与所述初始气象观测信息集合中其他初始气象观测信息中的初始系统气象数据之间的气象数据表征向量匹配因子;
在所述初始气象观测信息集合中去除与所述提取的初始气象观测信息之间的气象数据表征向量匹配因子达到匹配因子阈值的其他初始气象观测信息;
将单一化筛选后的初始气象观测信息集合中的初始气象观测信息,作为历史气象观测信息;
根据各历史气象观测信息归属的能见度监测区域,根据所述各个历史气象观测信息集群分析得到各能见度监测区域对应的历史气象观测信息集合。
4.如权利要求2所述的方法,其特征在于,所述根据各个目标辅助分类器,确定所述历史系统气象数据相关的各个辅助能见度分类信息,包括:
确定所述历史系统气象数据对应的目标能见度监测区域,并确定所述目标能见度监测区域对应的目标辅助分类器,并获取除所述目标能见度监测区域外的各个其他能见度监测区域对应的其他目标辅助分类器;
依据各个其他目标辅助分类器,分别确定所述历史系统气象数据中相关的各个辅助能见度分类信息。
5.如权利要求2、3、4任一项所述的方法,其特征在于,所述辅助能见度分类信息中包括辅助能见度标记和对于所述辅助能见度标记预测得到的预测支持系数;
所述确定所述历史系统气象数据相关的各个辅助能见度分类信息之后,还包括:
获取所述各个辅助能见度分类信息中包括的辅助能见度标记,与所述历史系统气象数据相关的原始能见度先验标记之间的初始重叠标记集合,并确定所述初始重叠标记集合中各个能见度先验标记对应的预测支持系数;
在所述历史系统气象数据相关的原始能见度先验标记中去除所述初始重叠标记集合中预测支持系数达到标记过滤指标的能见度先验标记,得到处理后的原始能见度先验标记;
对于所述处理后的原始能见度先验标记,进入到将所述历史系统气象数据相关的原始能见度先验标记和各个辅助能见度分类信息的增广标签集,作为所述历史系统气象数据相关的模板能见度先验标记的步骤进行执行。
6.如权利要求1所述的方法,其特征在于,在对气象数据向量表征组件进行一次内源性学习时,完成如下步骤:
在所述基础训练知识模板集合中提取预定个数的系统气象数据知识模板,并通过所述气象数据向量表征组件,分别从提取的各个系统气象数据知识模板中,提取预定个数的,且关联有时间戳的模板气象数据记录点;
通过所述气象数据向量表征组件,根据属于同一系统气象数据知识模板的各个模板气象数据记录点组建内聚知识模板对,并根据属于不同系统气象数据知识模板的各个模板气象数据记录点组建离散知识模板对,其中,一个属于不同中包括两个模板气象数据记录点;
根据所述内聚知识模板对和所述离散知识模板对对所述气象数据向量表征组件进行多次内源性循环学习,直至达到预设的单次优化结束判断标准。
7.如权利要求6所述的方法,其特征在于,所述分别从提取的各个系统气象数据知识模板中,提取预定个数的关联有时间戳的模板气象数据记录点时,完成如下步骤中的其中一个:
对于提取的每一系统气象数据知识模板,根据所述系统气象数据知识模板对应的时间跨度,设置所述系统气象数据知识模板对应的目标节点,并在所述系统气象数据知识模板上所述目标节点对应的模板气象数据记录点开始,提取预定个数且关联有时间戳的模板气象数据记录点;
对于提取的每一系统气象数据知识模板,根据所述系统气象数据知识模板对应的时间跨度,将所述系统气象数据知识模板划分为预定个数的知识模板子气象数据,分别在各个知识模板子气象数据中任意提取一个模板气象数据记录点,得到预定个数的关联有时间戳的模板气象数据记录点。
8.如权利要求1所述的方法,其特征在于,所述初始多源数据能见度识别模型包括初始气象数据向量表征组件、初始站点数据向量表征组件、用于融合站点数据特征和系统气象数据特征的特征整合组件,以及分类器;
在所述初始多源数据能见度识别模型的一次示例驱动学习中,包括:
将一个批中的系统气象数据知识模板和对应的站点观测数据知识模板输入所述初始多源数据能见度识别模型,其中,将所述系统气象数据知识模板输入所述初始气象数据向量表征组件,将所述站点观测数据知识模板输入所述初始站点数据向量表征组件;
将所述初始气象数据向量表征组件输出的各个系统气象数据特征的融合特征,与所述站点数据向量表征组件输出的站点数据特征加载到所述特征整合组件,得到融合后的系统气象数据特征和站点数据特征;
将所述特征整合组件输出的特征融合结果加载到所述分类器,得到对于各个样本气象观测信息输出的预测能见度分类结果;
结合所述能见度分类结果与对应的模板能见度先验标记之间的误差,依据二元交叉熵代价函数获取代价值,以及根据所述代价值优化所述初始多源数据能见度识别模型的模型参变量。
9.如权利要求1所述的方法,其特征在于,所述基础训练后的多源数据能见度识别模型中至少涵盖基础训练后的气象数据向量表征组件、基础训练后的站点数据向量表征组件,以及基础训练后的分类器时,当确定模型细化调校时设置的能见度先验标记与所述基础训练后的分类器中设置的能见度先验标记不匹配时,对基础训练后的多源数据能见度识别模型进行模型细化调校,完成如下步骤,得到目标多源数据能见度识别模型:
获取细化调校知识模板集合,其中,每一细化调校知识模板中包括一个细化调校系统气象数据知识模板、所述细化调校系统气象数据知识模板相关的细化调校站点观测数据知识模板和细化调校模板能见度先验标记;
根据模型细化调校时的各个能见度先验标记,更新所述基础训练后的分类器中设置的能见度先验标记;
依据所述细化调校知识模板集合,对更新后的多源数据能见度识别模型进行多次模型细化调校,得到细化调校学习后的目标多源数据能见度识别模型。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410341383.2A CN118114201A (zh) | 2024-03-25 | 2024-03-25 | 基于多源数据融合和ai的气象质量数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410341383.2A CN118114201A (zh) | 2024-03-25 | 2024-03-25 | 基于多源数据融合和ai的气象质量数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118114201A true CN118114201A (zh) | 2024-05-31 |
Family
ID=91221144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410341383.2A Pending CN118114201A (zh) | 2024-03-25 | 2024-03-25 | 基于多源数据融合和ai的气象质量数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118114201A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118656682A (zh) * | 2024-08-19 | 2024-09-17 | 苏州市气象局 | 一种航运能见度预测方法、系统、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107942411A (zh) * | 2017-11-30 | 2018-04-20 | 南京理工大学 | 一种大气能见度预测方法 |
CN114280696A (zh) * | 2021-12-23 | 2022-04-05 | 无锡九方科技有限公司 | 一种海雾等级智能预报方法及系统 |
KR20230167856A (ko) * | 2022-06-03 | 2023-12-12 | 대한민국(기상청 국립기상과학원장) | 트리 기반 기계학습 알고리즘과 기상 예측 자료를 이용한 시정 예측 방법 |
-
2024
- 2024-03-25 CN CN202410341383.2A patent/CN118114201A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107942411A (zh) * | 2017-11-30 | 2018-04-20 | 南京理工大学 | 一种大气能见度预测方法 |
CN114280696A (zh) * | 2021-12-23 | 2022-04-05 | 无锡九方科技有限公司 | 一种海雾等级智能预报方法及系统 |
KR20230167856A (ko) * | 2022-06-03 | 2023-12-12 | 대한민국(기상청 국립기상과학원장) | 트리 기반 기계학습 알고리즘과 기상 예측 자료를 이용한 시정 예측 방법 |
Non-Patent Citations (1)
Title |
---|
苏靖晰;王圣堂;陈红敏;王永忠;: "基于GA-BP神经网络模型的大气能见度预测", 电脑知识与技术, no. 18, 25 June 2020 (2020-06-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118656682A (zh) * | 2024-08-19 | 2024-09-17 | 苏州市气象局 | 一种航运能见度预测方法、系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ceci et al. | Predictive modeling of PV energy production: How to set up the learning task for a better prediction? | |
CN106528874B (zh) | 基于Spark内存计算大数据平台的CLR多标签数据分类方法 | |
CN111008337B (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN105654210A (zh) | 一种利用海洋遥感多环境要素的集成学习渔场预报方法 | |
CN117540908B (zh) | 基于大数据的农业资源整合方法和系统 | |
CN115036922B (zh) | 一种分布式光伏发电电量预测方法及系统 | |
CN111967675A (zh) | 光伏发电量的预测方法以及预测装置 | |
CN118114201A (zh) | 基于多源数据融合和ai的气象质量数据分析方法及系统 | |
CN116129262A (zh) | 一种面向宜机化改造的耕地适宜性评价方法及系统 | |
AbdulRaheem et al. | Weather prediction performance evaluation on selected machine learning algorithms | |
CN113942521B (zh) | 一种智能车路系统下驾驶员风格辨识方法 | |
Kokilambal | Intelligent content based image retrieval model using adadelta optimized residual network | |
Wang et al. | Contrastive GNN-based traffic anomaly analysis against imbalanced dataset in IoT-based its | |
Ramzan et al. | A comprehensive review on Data Stream Mining techniques for data classification; and future trends | |
Tuysuzoglu et al. | Ensemble methods in environmental data mining | |
CN116245259B (zh) | 基于深度特征选择的光伏发电预测方法、装置和电子设备 | |
CN117913808A (zh) | 一种分布式光伏发电预测方法及其装置 | |
CN111488520A (zh) | 一种农作物种植种类推荐信息处理装置、方法及存储介质 | |
Rahman et al. | Performance of different data mining methods for predicting rainfall of Rajshahi district, Bangladesh | |
Paudel et al. | Comparative study of machine learning algorithms for rainfall prediction-a case study in Nepal | |
Shankar et al. | Crops Prediction Based on Environmental Factors Using Machine Learning Algorithm | |
Coca et al. | Physically meaningful dictionaries for EO crowdsourcing: A ML for blockchain architecture | |
Čulić Gambiroža et al. | Lost in data: recognizing type of time series sensor data using signal pattern classification | |
CN117951457B (zh) | 基于生物炭的负碳产品碳减排量核算方法及系统 | |
Gupta et al. | Ensemble methods-based comparative study of Landsat 8 operational land imager (OLI) and sentinel 2 multi-spectral images (MSI) for smart farming crop classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |