[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110245692B - 一种用于集合数值天气预报成员的层次聚类方法 - Google Patents

一种用于集合数值天气预报成员的层次聚类方法 Download PDF

Info

Publication number
CN110245692B
CN110245692B CN201910444986.4A CN201910444986A CN110245692B CN 110245692 B CN110245692 B CN 110245692B CN 201910444986 A CN201910444986 A CN 201910444986A CN 110245692 B CN110245692 B CN 110245692B
Authority
CN
China
Prior art keywords
minimum distance
matrix
connected graph
distance connected
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910444986.4A
Other languages
English (en)
Other versions
CN110245692A (zh
Inventor
樊仲欣
王兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qiaodao Technology Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201910444986.4A priority Critical patent/CN110245692B/zh
Publication of CN110245692A publication Critical patent/CN110245692A/zh
Application granted granted Critical
Publication of CN110245692B publication Critical patent/CN110245692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种一种用于集合数值天气预报成员的层次聚类方法,首先根据集合数值天气预报成员的数据特点建立最小距离连通图,然后利用最小距离连通图的最大差分值逐层分割数据成簇并剔除噪点,最后找出代表性的集合预报成员,完成聚类。与Ward聚类法相比,本发明时间复杂度更小,且本发明具有Ward不具备的去噪点功能。与管子法和距平相关系数分簇法相比,本发明具有生成多层次聚类结果的功能,可以在各层级上择优选取最合适的簇数,且不需要设置核心参数。

Description

一种用于集合数值天气预报成员的层次聚类方法
技术领域
本发明涉及信息技术领域下的数据聚类分析方法,尤其涉及一种用于集合数值天气预报成员的层次聚类方法。
背景技术
集合数值天气预报不仅给出单一的最佳可能预报,还定量地估计天气预报的不确定性。确定性预报只进行一次数值积分,而集合预报系统用不同的初始场进行多次数值积分,因此集合预报成员得到的多个数值预报结果使得我们可以去估计天气预报的不确定性,同时还可以使我们对确定性预报更有信心。由于天气预报的不确定性会随着天气形势不同而逐日变化,集合预报提供了对这种逐日变化的不确定性的估计,所以集合预报系统可以用来取样调查天气预报结果的概率分布函数,而且通常用来产生概率预报——用来评估某一结果发生的可能性。下表便是国家气象信息中心下发的ECMWF、NCEP、T639三大全球集合预报模式:
Figure BDA0002073327490000011
集合预报系统的一些指标可以用来优化确定性预报,当发布确定性预报时,最好的方式就是要充分地应用集合离散度显示的不确定性来明确确定性预报的确定程度到底有多少。集合离散度可以直接使用集合预报产品来进行分析,而其中聚类分析便是一种常用的手段。聚类分析方法是把集合预报中相似的成员合并成一类,同时给出该类出现的相对频率,特别对于多平衡态的大气状态,聚类法可以提供很清晰的具有几种典型平衡态的预报指导,使得聚类法更适合于经验不多的预报员。由此可见,利用聚类分析可以找到集合预报中具有代表性的预报成员并给出其可信程度。
目前国内外常用的集合预报成员聚类分析法主要有Ward聚类法、管子法(Tubingclustering)、距平相关系数分簇法、动力模糊法、神经元聚类法和中央聚类法(Centralclustering)等。这些聚类分析方法的特点都是着眼于寻找集合预报中的相似要素或相似天气形式并将其归为一类,其中以Ward聚类法、管子法和距平相关系数分簇法应用较多,上表的全球集合预报模式中ECMWF使用管子法、NCEP使用距平相关系数分簇法、T639的前身T213使用Ward法。上述这些方法虽然各有特色但仍存在有一定的共性问题有待解决。
1、未针对应用需求和计算效率进行优化
为了提高聚类算法筛选出的集合预报成员代表的可参考性和可信程度,往往需要提供具有多层次结构的并且能剔除无代表性成员的聚类结果,这就要求聚类同时具备相似簇归并生成多层次聚类结果的功能以及剔除噪点的功能,但Ward法不能去噪,而管子法和距平相关系数分簇法则不能生成多层次聚类结果。此外,由于数值天气预报的实时性(时次间隔12小时),以及考虑到数据传输的延时性,往往会要求在数小时内生成并输出预报产品,因此对于集合预报的计算效率也是有很高要求的,而已有层次聚类(Ward法)的时间复杂度一般较高,在O(n2)到O(n3)(n表示数据量,应用在最小距离连通图表示顶点总数,应用在集合数值预报产品表示集合数值预报成员的总数)的数量级。
2、核心参数的设置需要经验,难度较大
管子法要设置半径、距平相关系数法要设置相关系数阈值等等,这些参数都为核心参数,因为其设置直接关系到类簇的划分方式以及聚类效率,但又没有明确的客观参考依据,只能凭借主观经验,所以设置的难度很大。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种用于集合数值天气预报成员的层次聚类方法,能够去除噪点的层次聚类方法,并且根据集合数值天气预报成员的数据特点优化聚类的时间复杂度,从而使得集合预报成员的归类筛选更加的高效和准确。
本发明为解决上述技术问题采用以下技术方案:
一种用于集合数值天气预报成员的层次聚类方法,包含以下步骤:
步骤1),根据集合数值天气预报成员的数据特点建立最小距离连通图;所述最小距离连通图无向无环,包含n个顶点的唯一标识和n-1条连接顶点的边,且n-1条边为n个顶点按照最临近距离相互连接而成,如图1所示;
步骤1.1),令
Figure BDA0002073327490000021
xi={xi1,xi2,…xim}为第i个顶点的数据,1≤i≤n,n为顶点总数即集合数值天气预报成员的总数,m为集合数值天气预报成员的数据维度,idi为第i个集合数值天气预报成员的数据的唯一标识,顶点idi即第i个顶点;并令最临近边矩阵E11初始为空矩阵;
随机选取X中第i个顶点即顶点idi,分别计算顶点idi到其余各顶点的欧氏距离,生成距离矩阵
Figure BDA0002073327490000031
式中,dij为顶点idi到顶点idj的欧氏距离,1≤j≤n且j≠i;并令集合EX={idi};
步骤1.2),从距离矩阵XD中查找距离的最小值di_min,并将距离矩阵XD中其所在行[idi,idj,di_min]加入到最临近边矩阵E11后从距离矩阵XD删除;
步骤1.3),将顶点idj加入到集合EX中,计算idj到集合EX中顶点以外各顶点的距离,生成距离矩阵
Figure BDA0002073327490000032
p为集合EX中顶点以外各顶点的数量,djp为顶点idj到顶点idp的欧氏距离;
步骤1.4),将距离矩阵XD和距离矩阵XD2进行合并,形成新的距离矩阵XD;
步骤1.5),重复步骤1.2)至步骤1.4),直到集合EX中的顶点数量等于n;
步骤1.6),根据集合ID11[id1,…,idn]和最临近边矩阵E11生成最小距离连通图MDG[ID11,E11];
步骤2),利用最小距离连通图的最大差分值逐层分割数据成簇并剔除噪点:
步骤2.1),以最小距离连通图MDG[ID11,E11]作为第一层最小距离连通图;
步骤2.2),将最小距离连通图MDG[ID11,E11]分割为若干个第二层最小距离连通图;
步骤2.2.1),计算最临近边矩阵E11中除第一行外每一行第三列和上一行第三列的差值,取其中的最大值dd1在最临近边矩阵E11中对应行第三列的值以及对应行下一行第三列的值计算平均值,得到均值ddt1
步骤2.2.2),根据均值ddt1分割最小距离连通图MDG[ID11,E11]的最邻近边矩阵E11,形成最小距离连通图集合,并将该最小距离连通图集合作为第二层最小距离连通图集合,其中,根据均值分割最小距离连通图的最邻近边矩阵、形成最小距离连通图集合的具体步骤如下;
步骤2.2.2.1),令均值为T,最小距离连通图的最邻近边矩阵为EE,根据均值T分割最邻近边矩阵EE,得到若干个分割后的最邻近边矩阵;
步骤2.2.2.1.1),将最邻近边矩阵EE中第三列的值大于均值T的所有行删除,新建矩阵EA;
步骤2.2.2.1.2),将矩阵EA置为空矩阵,将最邻近边矩阵EE中的第一行放入矩阵EA中的末尾后从最邻近边矩阵EE中删除;
步骤2.2.2.1.3),对于矩阵EA中的每一行,在最邻近边矩阵EE的第一列、第二列中查找是否存在和其第一列或第二列的值相同的值,如果存在,将该值在最邻近边矩阵EE中的所在行放入矩阵EA中的末尾后从最邻近边矩阵EE中删除;
步骤2.2.2.1.4),重复执行步骤2.2.2.1.3),直至最邻近边矩阵EE的第一列、第二列和矩阵EA中第一列、第二列不存在相同的值;
步骤2.2.2.1.5),新建空矩阵,将矩阵EA中的值赋予给该空矩阵,得到一个分割后的最邻近边矩阵;
步骤2.2.2.1.6),重复执行步骤2.2.2.1.2)至步骤2.2.2.1.5)直到EE为空矩阵,得到若干个分割后的最邻近边矩阵,形成矩阵集合BB;
步骤2.2.2.2),对于矩阵集合BB中的每个最邻近边矩阵,提取其各条边对应的顶点的唯一标识,得到其对应的顶点集合,生成其对应的最小距离连通图;
步骤2.2.2.3),根据矩阵集合BB中各个最邻近边矩阵对应的最小距离连通图,生成第二层最小距离连通图集合;
步骤2.2.3),标记出第二层最小距离连通图集合中的噪点,其中,标记最小距离连通图集合中的噪点方法如下:对于最小距离连通图集合中各个最小距离连通图对应的顶点集合,依次判断其包含的顶点数量是否小于等于预设的比例阈值乘以n,如果小于等于,则该最小距离连通图为稀疏簇,将该最小距离连通图标记为噪点;
步骤2.2.4),标记出第二层最小距离连通图集合中的自然簇,其中,标记出最小距离连通图集合中的自然簇的方法如下:对于最小距离连通图集合中各个最小距离连通图对应的最邻近边矩阵,分别判断其是否符合正态和指数分布检验,如果符合,则将该最小距离连通图标记为自然簇;
步骤2.3),将第二层最小距离连通图集合作为当前层最小距离连通图集合;
步骤2.4),对当前层最小距离连通图集合进行分割;
步骤2.4.1),对于当前层最小距离连通图集合中的除噪点和自然簇以外的最小距离连通图对应的各个最邻近边矩阵,分别计算其内除第一行外每一行第三列和上一行第三列的差值,获取其中的最大值dd2
步骤2.4.2),对于dd2对应的最邻近边矩阵,取dd2在该最邻近边矩阵中对应行第三列的值以及对应行下一行第三列的值计算平均值,得到均值ddt2
步骤2.4.3),根据均值ddt2分割dd2对应的最邻近边矩阵,对其进行分割,形成下一层最小距离连通图集合;
步骤2.4.4),标记出下一层最小距离连通图集合中的噪点和自然簇;
步骤2.4.5),将当前层最小距离连通图集合中除dd2对应的最小距离连通图之外的最小距离连通图加入至下一层最小距离连通图集合中;
步骤2.5),将下一层最小距离连通图集合作为当前层最小距离连通图集合;
步骤2.6),重复步骤2.4)至步骤2.5),直至当前层最小距离连通图集合中不存在噪点和自然簇以外的最小距离连通图为止;
步骤3),找出代表性的集合预报成员,完成聚类:
步骤3.1),令当前层的层数为L,对于每一层最小距离连通图,筛选出其中非噪点的最小距离连通图作为该层的待筛选簇集合;
步骤3.2),依次将L层到第一层待筛选簇的数量和预设的个数范围阈值进行比较,直到某一层待筛选簇的数量在预设的个数阈值范围内为止,将该层的待筛选簇集合作为最终待筛选簇集合;
步骤3.3),对于最终待筛选簇集合中的任何一个最小距离连通图,筛选出其内最接近簇心的顶点作为其代表顶点,得到最终待筛选簇集合中各个最小距离连通图的代表顶点;
步骤3.4),将终待筛选簇集合中各个最小距离连通图的代表顶点所对应的集合数值天气预报成员作为代表成员。
作为本发明一种用于集合数值天气预报成员的层次聚类方法进一步的优化方案,所述预设的比例阈值优先设定为10%。
作为本发明一种用于集合数值天气预报成员的层次聚类方法进一步的优化方案,所述预设的个数阈值范围为3个至5个。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、与Ward聚类法相比,本发明的时间复杂度为
Figure BDA0002073327490000051
要小于Ward聚类法的O(n3),且本发明具有Ward不具备的去噪点功能。与管子法和距平相关系数分簇法相比,本发明具有生成多层次聚类结果的功能,可以在各层级上择优选取最合适的簇数,且不需要设置核心参数。
2、与已有的层次聚类算法相比,如优化过的凝聚层次聚类方法最近邻链法(Nearest Neighbor Chain)的时间复杂度O(n2)且不能去噪,变色龙法(Chameleon)的时间复杂度O(n2)且需要设置k最近邻图的k值(核心参数),利用层次结构的平衡迭代归约和聚类法(BIRCH)需要设置簇直径阈值T(核心参数)且聚类结果还具有随机性,所以本发明在时间复杂度、核心参数设置、去噪点功能等方面依然是具有优势的。
附图说明
图1是最小距离连通图MDG[X,E]的示意图;
图2是ECMWF全球集合预报产品聚类流程示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明公开了一种用于集合数值天气预报成员的层次聚类方法,包含以下具体步骤:
步骤1),根据集合数值天气预报成员的数据特点建立最小距离连通图;所述最小距离连通图无向无环,包含n个顶点的唯一标识和n-1条连接顶点的边,且n-1条边为n个顶点按照最临近距离相互连接而成,如图1所示;
步骤1.1),令
Figure BDA0002073327490000061
xi={xi1,xi2,…xim}为第i个顶点的数据,1≤i≤n,n为顶点总数即集合数值天气预报成员的总数,m为集合数值天气预报成员的数据维度,idi为第i个集合数值天气预报成员的数据的唯一标识,顶点idi即第i个顶点;并令最临近边矩阵E11初始为空矩阵;
随机选取X中第i个顶点即顶点idi,分别计算顶点idi到其余各顶点的欧氏距离,生成距离矩阵
Figure BDA0002073327490000062
式中,dij为顶点idi到顶点idj的欧氏距离,1≤j≤n且j≠i;并令集合EX={idi};
步骤1.2),从距离矩阵XD中查找距离的最小值di_min,并将距离矩阵XD中其所在行[idi,idj,di_min]加入到最临近边矩阵E11后从距离矩阵XD删除;
步骤1.3),将顶点idj加入到集合EX中,计算idj到集合EX中顶点以外各顶点的距离,生成距离矩阵
Figure BDA0002073327490000063
p为集合EX中顶点以外各顶点的数量,djp为顶点idj到顶点idp的欧氏距离;
步骤1.4),将距离矩阵XD和距离矩阵XD2进行合并,形成新的距离矩阵XD;
步骤1.5),重复步骤1.2)至步骤1.4),直到集合EX中的顶点数量等于n;
步骤1.6),根据集合ID11[id1,…,idn]和最临近边矩阵E11生成最小距离连通图MDG[ID11,E11]。
本方法的空间复杂度S(n(m+1)+3n(n-1)/2),时间复杂度
Figure BDA0002073327490000071
其中n表示数据量,m表示数据维度。
Figure BDA0002073327490000072
Figure BDA0002073327490000073
这一项表示的是生成距离矩阵XD和XD2的总时间复杂度,这部分时间消耗和数据维度呈正相关关系,
Figure BDA0002073327490000074
这一项表示的是遍历XD查找最小距离值的总时间复杂度,这部分时间消耗和数据量呈正相关关系。那么由于针对ECMWF全球集合预报成员的聚类,其数据维度为33600(地面格点数量)或12600(高空格点数量),而其数据量为50,可见数据维度是远大于数据量的,至于NCEP全球集合预报、T639全球集合预报也同样数据维度是远大于数据量的,因此上述时间复杂度可以简化为
Figure BDA0002073327490000075
步骤2),利用最小距离连通图的最大差分值逐层分割数据成簇并剔除噪点,由于最小距离连通图MDG[X,E]的边矩阵E保存的是连接顶点所形成的边相互串联起来的一条路径,并且这条路径的生成是以最小距离为优先从某随机顶点开始不断延伸拓展出来的,所以路径中边的顺序必然是先延伸拓展完就近距离的本类簇才会进入到其它类簇中。因此,可以用最大差分值分割边矩阵E的路径形成类簇,步骤如下:
步骤2.1),以最小距离连通图MDG[ID11,E11]作为第一层最小距离连通图;
步骤2.2),将最小距离连通图MDG[ID11,E11]分割为若干个第二层最小距离连通图;
步骤2.2.1),计算最临近边矩阵E11中除第一行外每一行第三列和上一行第三列的差值,取其中的最大值dd1在最临近边矩阵E11中对应行第三列的值以及对应行下一行第三列的值计算平均值,得到均值ddt1
步骤2.2.2),根据均值ddt1分割最小距离连通图MDG[ID11,E11]的最邻近边矩阵E11,形成最小距离连通图集合,并将该最小距离连通图集合作为第二层最小距离连通图集合,其中,根据均值分割最小距离连通图的最邻近边矩阵、形成最小距离连通图集合的具体步骤如下;
步骤2.2.2.1),令均值为T,最小距离连通图的最邻近边矩阵为EE,根据均值T分割最邻近边矩阵EE,得到若干个分割后的最邻近边矩阵;
步骤2.2.2.1.1),将最邻近边矩阵EE中第三列的值大于均值T的所有行删除,新建矩阵EA;
步骤2.2.2.1.2),将矩阵EA置为空矩阵,将最邻近边矩阵EE中的第一行放入矩阵EA中的末尾后从最邻近边矩阵EE中删除;
步骤2.2.2.1.3),对于矩阵EA中的每一行,在最邻近边矩阵EE的第一列、第二列中查找是否存在和其第一列或第二列的值相同的值,如果存在,将该值在最邻近边矩阵EE中的所在行放入矩阵EA中的末尾后从最邻近边矩阵EE中删除;
步骤2.2.2.1.4),重复执行步骤2.2.2.1.3),直至最邻近边矩阵EE的第一列、第二列和矩阵EA中第一列、第二列不存在相同的值;
步骤2.2.2.1.5),新建空矩阵,将矩阵EA中的值赋予给该空矩阵,得到一个分割后的最邻近边矩阵;
步骤2.2.2.1.6),重复执行步骤2.2.2.1.2)至步骤2.2.2.1.5)直到EE为空矩阵,得到若干个分割后的最邻近边矩阵,形成矩阵集合BB;
步骤2.2.2.2),对于矩阵集合BB中的每个最邻近边矩阵,提取其各条边对应的顶点的唯一标识,得到其对应的顶点集合,生成其对应的最小距离连通图;
步骤2.2.2.3),根据矩阵集合BB中各个最邻近边矩阵对应的最小距离连通图,生成第二层最小距离连通图集合;
步骤2.2.3),标记出第二层最小距离连通图集合中的噪点,其中,标记最小距离连通图集合中的噪点方法如下:对于最小距离连通图集合中各个最小距离连通图对应的顶点集合,依次判断其包含的顶点数量是否小于等于预设的比例阈值乘以n,如果小于等于,则该最小距离连通图为稀疏簇,将该最小距离连通图标记为噪点;
步骤2.2.4),标记出第二层最小距离连通图集合中的自然簇,其中,标记出最小距离连通图集合中的自然簇的方法如下:对于最小距离连通图集合中各个最小距离连通图对应的最邻近边矩阵,分别判断其是否符合正态和指数分布检验,如果符合,则将该最小距离连通图标记为自然簇;
步骤2.3),将第二层最小距离连通图集合作为当前层最小距离连通图集合;
步骤2.4),对当前层最小距离连通图集合进行分割;
步骤2.4.1),对于当前层最小距离连通图集合中的除噪点和自然簇以外的最小距离连通图对应的各个最邻近边矩阵,分别计算其内除第一行外每一行第三列和上一行第三列的差值,获取其中的最大值dd2
步骤2.4.2),对于dd2对应的最邻近边矩阵,取dd2在该最邻近边矩阵中对应行第三列的值以及对应行下一行第三列的值计算平均值,得到均值ddt2
步骤2.4.3),根据均值ddt2分割dd2对应的最邻近边矩阵,对其进行分割,形成下一层最小距离连通图集合;
步骤2.4.4),标记出下一层最小距离连通图集合中的噪点和自然簇;
步骤2.4.5),将当前层最小距离连通图集合中除dd2对应的最小距离连通图之外的最小距离连通图加入至下一层最小距离连通图集合中;
步骤2.5),将下一层最小距离连通图集合作为当前层最小距离连通图集合;
步骤2.6),重复步骤2.4)至步骤2.5),直至当前层最小距离连通图集合中不存在噪点和自然簇以外的最小距离连通图为止。
在逐层分割最小距离连通图的过程中,除了排除稀疏簇(噪点)以外,对同层各簇的边矩阵做正态性分布检验和指数分布检验也可以减少步骤2.4)的分割操作并且找到自然簇。其中由于在逐层分割的过程中,大差分值的距离会不断地被去掉,因此各簇边矩阵的距离值分布会不断趋向于正态分布(该分布的X轴为距离值,Y轴为距离值出现频率),所以采用Lilliefors Normal Distribution检验方法来判断距离值分布是否符合正态分布。指数分布检验的目的是判断簇内数据的分布是否呈现超球体以及是否具有真正接近于簇心(簇内数据在各维度上的均值)的数据,由于最小距离连通图的边是以最临近距离相互连接而成的,所以边中各顶点的出现频率即表示其在簇里面所处的位置是边缘还是中心,因此将簇的顶点数量按照出现次数来进行分类并按出现次数升序排序后得到顶点数量的向量xv,对其进行指数分布变换(变换公式yv=1-xv/xv_max,式中xv_max表示向量xv的最大值)后,如yv趋向于指数分布(该分布的X轴为顶点出现次数,Y轴为yv值),则该簇基本呈超球体且具有簇心,这里采用Lilliefors Exponential Distributions检验方法来判断顶点出现次数的分布是否符合指数分布。
步骤3),找出代表性的集合预报成员,完成聚类,本专利对于不断滚动更新的集合预报产品来说具有良好的适用性,能够根据集合预报成员数据的超高维度和小数据量特点,在分裂最小距离连通图生成多层次聚类结果的同时标识出自然簇和噪点。其选择集合预报成员代表的具体步骤如下:
步骤3.1),令当前层的层数为L,对于每一层最小距离连通图,筛选出其中非噪点的最小距离连通图作为该层的待筛选簇集合;
步骤3.2),依次将L层到第一层待筛选簇的数量和预设的个数范围阈值进行比较,直到某一层待筛选簇的数量在预设的个数阈值范围内为止,将该层的待筛选簇集合作为最终待筛选簇集合。预设的个数阈值范围优先设定为3个至5个(一般认为分簇数量最好介于3-5个,否则簇数过多会导致其代表成员的可信程度较低,簇数过少会导致其代表成员的可参考性较差)。如无满足条件的层次,则认为噪点过多,集合成员不具备可聚类性。
步骤3.3),对于最终待筛选簇集合中的任何一个最小距离连通图,筛选出其内最接近簇心的顶点作为其代表顶点,得到最终待筛选簇集合中各个最小距离连通图的代表顶点;
步骤3.4),将终待筛选簇集合中各个最小距离连通图的代表顶点所对应的集合数值天气预报成员作为代表成员。
最后输出代表成员所在簇的预报成员数占预报成员总数的百分比(即代表顶点所在最小距离联通图的顶点数量占顶点总数的百分比)作为该代表成员的可信度。
所述预设的比例阈值优先设定为10%。
所述预设的个数阈值范围为3个至5个。
为说明本发明专利(MDG层次聚类法)在现实中的实施方法,以ECMWF全球集合预报产品为例,其系统流程图如图2所示。
从图2可以看出,ECMWF全球集合预报系统所生成的预报产品经MDG层次聚类法聚类后,以格点数量为维度、成员总数为数据量,在各时次、各时间分辨率上都会生成一个代表成员数量在3至5个的聚类结果,但如果噪点过多不可聚类的话,则会提示不可聚类的信息并给出全部50个集合成员作为聚类结果,最后该结果经图形可视化处理后呈现给预报员使用。
现举例某一次的集合预报聚类如下,取地面层气温的目标时间为2016年8月31日00时(世界时)的6小时预报为聚类时间,则50个集合成员进行一次MDG层次聚类后,再将各代表成员的地面层格点数据双线性内插到南京站,用来考察南京站的6小时地面气温的集合预报可信度,其MDG层次聚类法的结果如下表:
Figure BDA0002073327490000101
可信度=代表成员所在簇的预报成员数占预报成员总数(50个)的百分比。
按照TS评分方法,认为气温预报的绝对误差在2℃范围内都是击中的(见王艺橙《基于卡尔曼滤波和MOS方法的江苏地区夏季最高气温预报》一文)。那么从上表中可以看出,集合预报成员代表6、15、39号都有所击中,所以本次集合预报成员聚类结果即为6、15、39号集合成员,且其各自的可信度为(36%、28%、16%),而其准确率是击中可信度/总可信度(80%/92%=87%)。
最后,将上表基于时间点的聚类结果扩展到时间段上。选取资料时间:2016年6-8月00Z和12Z的6小时预报;地点:南京、徐州、射阳三地;聚类分析要素:50个集合成员的地面气温预报,其3个月MDG层次聚类结果和Ward、管子法比较如下表:
地点 管子法准确率C<sub>mean</sub> Ward准确率C<sub>mean</sub> MDG层次聚类准确率C<sub>mean</sub>
南京 67% 70% 80%
徐州 73% 75% 85%
射阳 76% 78% 86%
Ci=排除不可聚类情况的某次集合预报成员聚类结果的准确率,准确率
Figure BDA0002073327490000111
(n=92天×2次/天-不可聚类次数)
上表中MDG层次聚类的结果是优于Ward聚类和管子法的,准确率可以达到80%以上,这是因为其具有的去噪功能可以屏蔽稀疏簇的干扰而只考虑自然簇的聚类准确性,以及避免了因固定的核心参数设置而带来的对动态时序变化数据的不适用性问题。而从地域上来看南京的聚类准确率普遍偏低一些,这是因为南京地区受周边山地江河的影响,天气形势较其它两地更为复杂多变,因此集合数值预报的总体准确率本身就会有所降低,而基于集合数值预报产品的MDG层次聚类结果自然也就相应的较差一些。
附:本专利算法的所有运行效果及结论依据如下计算机软硬件实现:
Figure BDA0002073327490000112
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种用于集合数值天气预报成员的层次聚类方法,其特征在于,包含以下步骤:
步骤1),根据集合数值天气预报成员的数据特点建立最小距离连通图;所述最小距离连通图无向无环,包含n个顶点的唯一标识和n-1条连接顶点的边,且n-1条边为n个顶点按照最临近距离相互连接而成;
步骤1.1),令
Figure FDA0002073327480000011
xi={xi1,xi2,…xim}为第i个顶点的数据,1≤i≤n,n为顶点总数即集合数值天气预报成员的总数,m为集合数值天气预报成员的数据维度,idi为第i个集合数值天气预报成员的数据的唯一标识,顶点idi即第i个顶点;并令最临近边矩阵E11初始为空矩阵;
随机选取X中第i个顶点即顶点idi,分别计算顶点idi到其余各顶点的欧氏距离,生成距离矩阵
Figure FDA0002073327480000012
式中,dij为顶点idi到顶点idj的欧氏距离,1≤j≤n且j≠i;并令集合EX={idi};
步骤1.2),从距离矩阵XD中查找距离的最小值di_min,并将距离矩阵XD中其所在行[idi,idj,di_min]加入到最临近边矩阵E11后从距离矩阵XD删除;
步骤1.3),将顶点idj加入到集合EX中,计算idj到集合EX中顶点以外各顶点的距离,生成距离矩阵
Figure FDA0002073327480000013
p为集合EX中顶点以外各顶点的数量,djp为顶点idj到顶点idp的欧氏距离;
步骤1.4),将距离矩阵XD和距离矩阵XD2进行合并,形成新的距离矩阵XD;
步骤1.5),重复步骤1.2)至步骤1.4),直到集合EX中的顶点数量等于n;
步骤1.6),根据集合ID11[id1,…,idn]和最临近边矩阵E11生成最小距离连通图MDG[ID11,E11];
步骤2),利用最小距离连通图的最大差分值逐层分割数据成簇并剔除噪点:
步骤2.1),以最小距离连通图MDG[ID11,E11]作为第一层最小距离连通图;
步骤2.2),将最小距离连通图MDG[ID11,E11]分割为若干个第二层最小距离连通图;
步骤2.2.1),计算最临近边矩阵E11中除第一行外每一行第三列和上一行第三列的差值,取其中的最大值dd1在最临近边矩阵E11中对应行第三列的值以及对应行下一行第三列的值计算平均值,得到均值ddt1
步骤2.2.2),根据均值ddt1分割最小距离连通图MDG[ID11,E11]的最邻近边矩阵E11,形成最小距离连通图集合,并将该最小距离连通图集合作为第二层最小距离连通图集合,其中,根据均值分割最小距离连通图的最邻近边矩阵、形成最小距离连通图集合的具体步骤如下;
步骤2.2.2.1),令均值为T,最小距离连通图的最邻近边矩阵为EE,根据均值T分割最邻近边矩阵EE,得到若干个分割后的最邻近边矩阵;
步骤2.2.2.1.1),将最邻近边矩阵EE中第三列的值大于均值T的所有行删除,新建矩阵EA;
步骤2.2.2.1.2),将矩阵EA置为空矩阵,将最邻近边矩阵EE中的第一行放入矩阵EA中的末尾后从最邻近边矩阵EE中删除;
步骤2.2.2.1.3),对于矩阵EA中的每一行,在最邻近边矩阵EE的第一列、第二列中查找是否存在和其第一列或第二列的值相同的值,如果存在,将该值在最邻近边矩阵EE中的所在行放入矩阵EA中的末尾后从最邻近边矩阵EE中删除;
步骤2.2.2.1.4),重复执行步骤2.2.2.1.3),直至最邻近边矩阵EE的第一列、第二列和矩阵EA中第一列、第二列不存在相同的值;
步骤2.2.2.1.5),新建空矩阵,将矩阵EA中的值赋予给该空矩阵,得到一个分割后的最邻近边矩阵;
步骤2.2.2.1.6),重复执行步骤2.2.2.1.2)至步骤2.2.2.1.5)直到EE为空矩阵,得到若干个分割后的最邻近边矩阵,形成矩阵集合BB;
步骤2.2.2.2),对于矩阵集合BB中的每个最邻近边矩阵,提取其各条边对应的顶点的唯一标识,得到其对应的顶点集合,生成其对应的最小距离连通图;
步骤2.2.2.3),根据矩阵集合BB中各个最邻近边矩阵对应的最小距离连通图,生成第二层最小距离连通图集合;
步骤2.2.3),标记出第二层最小距离连通图集合中的噪点,其中,标记最小距离连通图集合中的噪点方法如下:对于最小距离连通图集合中各个最小距离连通图对应的顶点集合,依次判断其包含的顶点数量是否小于等于预设的比例阈值乘以n,如果小于等于,则该最小距离连通图为稀疏簇,将该最小距离连通图标记为噪点;
步骤2.2.4),标记出第二层最小距离连通图集合中的自然簇,其中,标记出最小距离连通图集合中的自然簇的方法如下:对于最小距离连通图集合中各个最小距离连通图对应的最邻近边矩阵,分别判断其是否符合正态和指数分布检验,如果符合,则将该最小距离连通图标记为自然簇;
步骤2.3),将第二层最小距离连通图集合作为当前层最小距离连通图集合;
步骤2.4),对当前层最小距离连通图集合进行分割;
步骤2.4.1),对于当前层最小距离连通图集合中的除噪点和自然簇以外的最小距离连通图对应的各个最邻近边矩阵,分别计算其内除第一行外每一行第三列和上一行第三列的差值,获取其中的最大值dd2
步骤2.4.2),对于dd2对应的最邻近边矩阵,取dd2在该最邻近边矩阵中对应行第三列的值以及对应行下一行第三列的值计算平均值,得到均值ddt2
步骤2.4.3),根据均值ddt2分割dd2对应的最邻近边矩阵,对其进行分割,形成下一层最小距离连通图集合;
步骤2.4.4),标记出下一层最小距离连通图集合中的噪点和自然簇;
步骤2.4.5),将当前层最小距离连通图集合中除dd2对应的最小距离连通图之外的最小距离连通图加入至下一层最小距离连通图集合中;
步骤2.5),将下一层最小距离连通图集合作为当前层最小距离连通图集合;
步骤2.6),重复步骤2.4)至步骤2.5),直至当前层最小距离连通图集合中不存在噪点和自然簇以外的最小距离连通图为止;
步骤3),找出代表性的集合预报成员,完成聚类:
步骤3.1),令当前层的层数为L,对于每一层最小距离连通图,筛选出其中非噪点的最小距离连通图作为该层的待筛选簇集合;
步骤3.2),依次将L层到第一层待筛选簇的数量和预设的个数范围阈值进行比较,直到某一层待筛选簇的数量在预设的个数阈值范围内为止,将该层的待筛选簇集合作为最终待筛选簇集合;
步骤3.3),对于最终待筛选簇集合中的任何一个最小距离连通图,筛选出其内最接近簇心的顶点作为其代表顶点,得到最终待筛选簇集合中各个最小距离连通图的代表顶点;
步骤3.4),将终待筛选簇集合中各个最小距离连通图的代表顶点所对应的集合数值天气预报成员作为代表成员。
2.根据权利要求1所述的用于集合数值天气预报成员的层次聚类方法,其特征在于,所述预设的比例阈值优先设定为10%。
3.根据权利要求1所述的用于集合数值天气预报成员的层次聚类方法,其特征在于,所述预设的个数阈值范围为3个至5个。
CN201910444986.4A 2019-05-27 2019-05-27 一种用于集合数值天气预报成员的层次聚类方法 Active CN110245692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910444986.4A CN110245692B (zh) 2019-05-27 2019-05-27 一种用于集合数值天气预报成员的层次聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910444986.4A CN110245692B (zh) 2019-05-27 2019-05-27 一种用于集合数值天气预报成员的层次聚类方法

Publications (2)

Publication Number Publication Date
CN110245692A CN110245692A (zh) 2019-09-17
CN110245692B true CN110245692B (zh) 2022-03-18

Family

ID=67885159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910444986.4A Active CN110245692B (zh) 2019-05-27 2019-05-27 一种用于集合数值天气预报成员的层次聚类方法

Country Status (1)

Country Link
CN (1) CN110245692B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507415B (zh) * 2020-04-21 2023-07-25 南京信息工程大学 一种基于分布密度的多源大气数据聚类方法
CN113159098B (zh) * 2021-02-08 2024-03-29 北京工商大学 基于密度一致性和相关性的营养食品聚类方法
CN113158817B (zh) * 2021-03-29 2023-07-18 南京信息工程大学 一种基于快速密度峰聚类的客观天气分型方法
CN118260666A (zh) * 2024-03-13 2024-06-28 国家气象中心(中央气象台) 一种用于天气预报不确定性诊断的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034858A (zh) * 2012-11-30 2013-04-10 宁波大学 一种卫星云图的二次聚类分割方法
CN107784165A (zh) * 2017-09-29 2018-03-09 国网青海省电力公司 基于光伏电站的地表温度场多尺度资料同化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808948B (zh) * 2016-03-08 2017-02-15 中国水利水电科学研究院 一种自动修正的多模式数值降雨集合预报方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034858A (zh) * 2012-11-30 2013-04-10 宁波大学 一种卫星云图的二次聚类分割方法
CN107784165A (zh) * 2017-09-29 2018-03-09 国网青海省电力公司 基于光伏电站的地表温度场多尺度资料同化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向智能终端的短临天气主观分析系统设计与实现;王兴 等;《软件工程》;20190531;第43-45、31页 *

Also Published As

Publication number Publication date
CN110245692A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
CN113642849B (zh) 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN108595414B (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
CN105405133B (zh) 一种遥感影像变化检测方法
CN103888541B (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN112907113B (zh) 一种考虑空间相关性的植被变化成因识别方法
Biard et al. Automated detection of weather fronts using a deep learning neural network
CN112131731A (zh) 一种基于空间特征向量滤波的城市生长元胞模拟方法
CN111079999A (zh) 一种基于cnn和svm的洪水灾害易发性预测方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN117725448A (zh) 气象导航信号特征的聚类分析方法
CN111611293B (zh) 一种基于特征加权与MapReduce的离群数据挖掘方法
CN107909062B (zh) 一种基于信息熵的遥感影像特征离散化方法及系统
Pampuch et al. A review on clustering methods for climatology analysis and its application over South America
CN107423319B (zh) 一种垃圾网页检测方法
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统
CN116258279B (zh) 基于综合赋权的滑坡易发性评价方法和装置
Ariff et al. Clustering of rainfall distribution patterns in peninsular Malaysia using time series clustering method
CN115934699A (zh) 异常数据筛选方法、装置、电子设备及存储介质
CN108320512B (zh) 基于拉普拉斯谱分析的宏观道路安全分析单元选取方法
CN113191089A (zh) 一种基于滑动窗口的尾矿砂液化数据聚类方法
Chen et al. Combining random forest and graph wavenet for spatial-temporal data prediction
Zhi et al. A Self-Adaptive OPTICS Clustering Algorithm Based on the Lightning Distribution
CN111309782A (zh) 一种基于子空间的离群点检测算法
CN118093673B (zh) 一种测绘数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240812

Address after: Room 128, Building 9, No. 168 Shuanggao Road, Gaochun Economic Development Zone, Nanjing City, Jiangsu Province, China (Yangjiang Industrial Park)

Patentee after: Nanjing Qiaodao Technology Co.,Ltd.

Country or region after: China

Address before: No.219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu Province, 210032

Patentee before: Nanjing University of Information Science and Technology

Country or region before: China

TR01 Transfer of patent right