CN110175168B - 一种基于生成对抗网络的时间序列数据填补方法及系统 - Google Patents
一种基于生成对抗网络的时间序列数据填补方法及系统 Download PDFInfo
- Publication number
- CN110175168B CN110175168B CN201910453437.3A CN201910453437A CN110175168B CN 110175168 B CN110175168 B CN 110175168B CN 201910453437 A CN201910453437 A CN 201910453437A CN 110175168 B CN110175168 B CN 110175168B
- Authority
- CN
- China
- Prior art keywords
- data
- filling
- group
- missing
- countermeasure network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 238000012217 deletion Methods 0.000 claims abstract description 9
- 230000037430 deletion Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims abstract 2
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000005791 algae growth Effects 0.000 description 3
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于生成对抗网络的时间序列数据填补方法及系统,包括:获取不同缺失率的数据集;对上述的数据集进行归一化处理,将时间序列数据转化为矩阵数据形式;构造滑动窗口,将数据分成若干组;筛选各个组中不缺失数据的行,构造每个组的完整子矩阵数据;将各个组中的完整子矩阵数据放入生成对抗网络中训练,使生成器和判别器达到平衡,最终生成若干虚拟数据;筛选生成的虚拟数据,将虚拟数据填补到缺失数据中;反归一化数据,最终完成数据填补。本发明有益效果:引入生成对抗网络,实现了缺失值的训练填补方式,特别适用于时间序列数据缺失值填补;候选填补数据量巨大,可根据填补数据的不同特性来筛选数据从而进行填补。
Description
技术领域
本发明涉及时间序列数据缺失值填补的技术领域,特别是涉及一种基于生成对抗网络的时间序列数据填补方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
时间序列数据是最常见的数据之一,在金融、医疗、交通、气象、海洋等领域均有广泛的应用。然而,由于传感器、传输网络的不稳定性等原因,数据不可避免的会出现缺失值。数据的缺失会造成信息的不完整,从而对后续的分析和处理带来很不利的影响。一般的缺失值的填补方法包括均值填补、多项式拟合、插值法、EM算法、K-means聚类算法、组合完整化等方法。
发明人发现,时间序列数据包含时间特征,较静态数据填补具有更高的挑战性。因为缺失数据往往与先前数据存在相关性,利用传统的数据填补方法可能会造成较大的误差。
发明内容
为了解决上述问题,本发明提出一种基于生成对抗网络的时间序列数据填补方法及系统,引入生成对抗网络,实现了缺失值的训练填补方式,特别适用于时间序列数据缺失值填补。
在一些实施方式中,采用如下技术方案:
一种基于生成对抗网络的时间序列数据填补方法,包括:
获取不同缺失率的数据集;
对上述的数据集进行归一化处理,根据数据周期,将时间序列数据转化为矩阵数据形式;
构造滑动窗口,将数据分成若干组,每组包含所有数据的若干列;
筛选各个组中不缺失数据的行,构造每个组的完整子矩阵数据;
将各个组中的完整子矩阵数据放入生成对抗网络中训练,使生成器和判别器达到平衡,最终生成若干虚拟数据;
筛选生成的虚拟数据,将虚拟数据填补到缺失数据中;
反归一化数据,最终完成数据填补。
在另一些实施方式中,采用如下技术方案:
一种基于生成对抗网络的时间序列数据填补系统,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于生成对抗网络的时间序列数据填补方法。
在另一些实施方式中,采用如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述的基于生成对抗网络的时间序列数据填补方法。
与现有技术相比,本发明的有益效果是:
引入生成对抗网络,实现了缺失值的训练填补方式,特别适用于时间序列数据缺失值填补。滑动窗口大大减小了数据计算量,降低了对运算设备的要求。在真实的数据缺失中,同一周期中的缺失值往往是集中在一个或者几个中心的,所以通过滑动窗口仅仅对其中缺失的部分进行生成填补,会大大提高填补效率。
候选填补数据量巨大,可根据填补数据的不同特性来筛选数据从而进行填补。
本发明数据填补方法每次会生成完整周期数据,对数据缺失率敏感度相对较低。对于缺失率较高的时间序列数据,具有很好的效果。
本发明数据填补方法每次会产生大量的虚拟数据,使得数据填补不再是传统方法中只产生一种填补结果。可以根据不同的时间序列数据特征,设置不同的对比方法,以得到不同的数据填补结果,有利于实现更精确的分析预测。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是实施例一中基于生成对抗网络对时间序列数据缺失值填补的具体流程;
图2是实施例一中生成对抗网络的模型结构图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于生成对抗网络的时间序列数据填补方法,如图1所示,包括以下步骤:
S1获得不同缺失率的数据集。
S2将数据集归一化处理,并根据数据周期构成数据矩阵。
S3构造滑动窗口,将数据分成若干组,每组包含所有数据的若干列。
S4筛选各个组中不缺失数据的行,构造每个组的完整子矩阵数据。
S5将各个组中的完整子矩阵数据放入生成对抗网络中训练,使生成器和判别器达到平衡,最终生成若干虚拟数据。
S6筛选生成的虚拟数据,将虚拟数据填补到缺失数据中。
S7反归一化数据,最终完成数据填补。
步骤S1中,本实施例中,为了获得不同缺失率的数据集,在获取时间序列数据后,按照给定的缺失率随机删除数据,其中缺失率为缺失数据占总数数据的比重。缺失率可设定为5%、10%、20%、30%。当然,不同缺失率的数据集也可以是直接获取到的。
步骤S2中,首先对数据进行归一化处理,进行归一化处理的公式如下:
其中ai,j为原始数据,Ai,j为归一化数据,max(ai,j)和min(ai,j)为原始数据的最大值和最小值。
进一步的,时间序列数据转化为矩阵数据形式。以小时、天、月、年等周期,分割数据,使每一行数据为一个周期,即小时、天、月、年。
步骤S3中,为保证训练数据集中包含足够的数据量,构建滑动窗口,保证每次构建的数据量足够大。滑动窗口中的数据为一组,以组为单位进行数据填补,每一组包含数据的若干列和所有行。列数满足如下公式:
其中,n为滑动窗口的宽度即每组数据的列数,x为数据的缺失率,a生成对抗网络所需的最小数据量,推荐为10,b为数据总行数。
大量的数据往往意味着大量的计算,而基于生成对抗网络的时间序列数据填补方法所涉及到的计算复杂,这就意味着需要较高性能的计算机才可以完成数据填补工作。滑动窗口则大大减小了数据计算量,降低了对运算设备的要求。此外,在真实的数据缺失中,同一周期中的缺失值往往是集中在一个或者几个中心的,所以通过滑动窗口仅仅对其中缺失的部分进行生成填补,会大大提高填补效率。
在数据缺失率不变的情况下,总的采集数据量越大,缺失数据的数量越大。假设缺失率为5%,每一周期存在24个数据,则该周期不缺失的概率为(1-5%)24,其值约等于0.292。如果数据采集更加频繁的话不缺失的概率则会继续减小,这就会造成所有数据中很难找到不缺失的数据用于生成对抗网络(GAN)学习,让该方法失效。滑动窗口则可以减小每次填补的数据量,保证GAN有充足的数据量去学习。
步骤S4中,将每组数据分为两部分,即缺失数据部分和非缺失数据部分。这里的数据缺失指的是数据中具有大于等于一个缺失值的行,非缺失数据指的是数据中没有缺失值的行。
举例说明如下:
假设归一化后的数据矩阵如下表所示,其中每一行为一个数据周期,Na为缺失数据。
A<sub>1,1</sub> | A<sub>1,2</sub> | A<sub>1,3</sub> | Na | Na | Na | Na | A<sub>1,8</sub> | Na | A<sub>1,10</sub> | Na | A<sub>1,12</sub> | A<sub>1,13</sub> | A<sub>1,14</sub> | A<sub>1,15</sub> |
A<sub>2,1</sub> | A<sub>2,2</sub> | A<sub>2,3</sub> | A<sub>2,4</sub> | A<sub>2,5</sub> | A<sub>2,6</sub> | A<sub>2,7</sub> | A<sub>2,8</sub> | A<sub>2,9</sub> | A<sub>2,10</sub> | A<sub>2,11</sub> | A<sub>2,12</sub> | A<sub>2,13</sub> | A<sub>2,14</sub> | A<sub>2,15</sub> |
A<sub>3,1</sub> | A<sub>3,2</sub> | A<sub>3,3</sub> | A<sub>3,4</sub> | Na | A<sub>3,6</sub> | A<sub>3,7</sub> | Na | A<sub>3,9</sub> | Na | A<sub>3,11</sub> | A<sub>3,12</sub> | A<sub>3,13</sub> | A<sub>3,14</sub> | A<sub>3,15</sub> |
A<sub>4,1</sub> | A<sub>4,2</sub> | A<sub>4,3</sub> | A<sub>4,4</sub> | A<sub>4,5</sub> | A<sub>4,6</sub> | A<sub>4,7</sub> | A<sub>4,8</sub> | A<sub>4,9</sub> | A<sub>4,10</sub> | A<sub>4,11</sub> | A<sub>4,12</sub> | A<sub>4,13</sub> | A<sub>4,14</sub> | A<sub>4,15</sub> |
A<sub>5,1</sub> | A<sub>5,2</sub> | A<sub>5,3</sub> | A<sub>5,4</sub> | A<sub>5,5</sub> | A<sub>5,6</sub> | A<sub>5,7</sub> | A<sub>5,8</sub> | A<sub>5,9</sub> | A<sub>5,10</sub> | A<sub>5,11</sub> | A<sub>5,12</sub> | A<sub>5,13</sub> | A<sub>5,14</sub> | A<sub>5,15</sub> |
A<sub>6,1</sub> | A<sub>6,2</sub> | A<sub>6,3</sub> | A<sub>6,4</sub> | A<sub>6,5</sub> | A<sub>6,6</sub> | A<sub>6,7</sub> | A<sub>6,8</sub> | A<sub>6,9</sub> | A<sub>6,10</sub> | A<sub>6,11</sub> | A<sub>6,12</sub> | A<sub>6,13</sub> | A<sub>6,14</sub> | A<sub>6,15</sub> |
寻找第一个存在缺失数据的列(本例中为第四列,滑动窗口长度设置为10),找到第一个数据窗,如下表所示。下一个数据窗将从第15列开始寻找。
Na | Na | Na | Na | A<sub>1,8</sub> | Na | A<sub>1,10</sub> | Na | A<sub>1,12</sub> | A<sub>1,13</sub> |
A<sub>2,4</sub> | A<sub>2,5</sub> | A<sub>2,6</sub> | A<sub>2,7</sub> | A<sub>2,8</sub> | A<sub>2,9</sub> | A<sub>2,10</sub> | A<sub>2,11</sub> | A<sub>2,12</sub> | A<sub>2,13</sub> |
A<sub>3,4</sub> | Na | A<sub>3,6</sub> | A<sub>3,7</sub> | Na | A<sub>3,9</sub> | Na | A<sub>3,11</sub> | A<sub>3,12</sub> | A<sub>3,13</sub> |
A<sub>4,4</sub> | A<sub>4,5</sub> | A<sub>4,6</sub> | A<sub>4,7</sub> | A<sub>4,8</sub> | A<sub>4,9</sub> | A<sub>4,10</sub> | A<sub>4,11</sub> | A<sub>4,12</sub> | A<sub>4,13</sub> |
A<sub>5,4</sub> | A<sub>5,5</sub> | A<sub>5,6</sub> | A<sub>5,7</sub> | A<sub>5,8</sub> | A<sub>5,9</sub> | A<sub>5,10</sub> | A<sub>5,11</sub> | A<sub>5,12</sub> | A<sub>5,13</sub> |
A<sub>6,4</sub> | A<sub>6,5</sub> | A<sub>6,6</sub> | A<sub>6,7</sub> | A<sub>6,8</sub> | A<sub>6,9</sub> | A<sub>6,10</sub> | A<sub>6,11</sub> | A<sub>6,12</sub> | A<sub>6,13</sub> |
下一个数据窗将从第15列开始寻找,若剩余数据列数小于滑动窗口设置长度,则借用该滑动窗口前的若干列数据构造滑动窗口,以保证数据长度不会过短。
将滑动窗口构造的子序列进一步拆分,构造完整子矩阵数据和缺失子矩阵,分别如下表所示。
完整子矩阵数据
A<sub>2,4</sub> | A<sub>2,5</sub> | A<sub>2,6</sub> | A<sub>2,7</sub> | A<sub>2,8</sub> | A<sub>2,9</sub> | A<sub>2,10</sub> | A<sub>2,11</sub> | A<sub>2,12</sub> | A<sub>2,13</sub> |
A<sub>4,4</sub> | A<sub>4,5</sub> | A<sub>4,6</sub> | A<sub>4,7</sub> | A<sub>4,8</sub> | A<sub>4,9</sub> | A<sub>4,10</sub> | A<sub>4,11</sub> | A<sub>4,12</sub> | A<sub>4,13</sub> |
A<sub>5,4</sub> | A<sub>5,5</sub> | A<sub>5,6</sub> | A<sub>5,7</sub> | A<sub>5,8</sub> | A<sub>5,9</sub> | A<sub>5,10</sub> | A<sub>5,11</sub> | A<sub>5,12</sub> | A<sub>5,13</sub> |
A<sub>6,4</sub> | A<sub>6,5</sub> | A<sub>6,6</sub> | A<sub>6,7</sub> | A<sub>6,8</sub> | A<sub>6,9</sub> | A<sub>6,10</sub> | A<sub>6,11</sub> | A<sub>6,12</sub> | A<sub>6,13</sub> |
缺失子矩阵数据
Na | Na | Na | Na | A<sub>1,8</sub> | Na | A<sub>1,10</sub> | Na | A<sub>1,12</sub> | A<sub>1,13</sub> |
A<sub>3,4</sub> | Na | A<sub>3,6</sub> | A<sub>3,7</sub> | Na | A<sub>3,9</sub> | Na | A<sub>3,11</sub> | A<sub>3,12</sub> | A<sub>3,13</sub> |
其中完整子矩阵数据用于训练GAN网络,以填补缺失子矩阵数据。
步骤S5中,生成对抗网络(GAN)由两个模型构成,生成模型G和判别模型D,随机噪声z通过G生成尽量服从真实藻类生长数据分布Pdata的样本G(z),判别模型D可以判断出输入样本是真实的藻类生长数据还是生成的藻类生长数据G(z)。G和D都可以是非线性的映射函数,均可采用采用多层感知器。GAN的流程如图1所示。
首先,在生成器给定的情况下,优化判别器。判别器为一个二分类模型,训练判别器是实现最小化交叉熵的过程,其公式如下:
E(·)为期望值的计算,x采样于真实数据分布Pdata(x),z采样于先验分布Pz(z)。生成器为了学习数据x的分布,由先验噪声分布Pz(z).构建了一个映射空间G(z;θg),对应的判别器映射函数为D(x;θd),输出一个标量表示x为真实数据的概率。
其中,中,x表示真实样本,D(x)表示x通过判别网络判断其为真实样本的概率;中,z表示输入生成样本的噪声,G(z)表示生成网络由噪声z生成的样本,D(G(z))表示生成样本通过判别网络后,判断其为真实样本的概率。生成网络的目的是让生成样本越接近真实样本越好,即D(G(z))越接近1越好,这时V(D,G)会变小;而判别网络的目的是让D(x)接近1,而D(G(z))接近0。
最后,通过生成对抗网络,最终生成大量生成数据。
步骤S6中,将生成数据与原始缺失数据组作比较。删除缺失数据部分中所有缺失数据,并逐条对数据进行填补。进行数据填补的方法为:
将原始缺失数据组与多个生成数据组进行对应,删除缺失数据组中数据缺失位置的数据,同时删除生成数据组中与数据缺失位置相对应的数据,形成新的原始数据组和生成数据组;分别计算新的原始数据组与每一个新的生成数据组的相似度,选取相似度值最小的生成数据组,将其与数据缺失位置相对应的数据填补到原始缺失数据组的相应位置。
举例说明如下:
假设原始时间序列数据为X具有十个数据,分别为X1到X10,其中第三个数据X3和第七个X7为缺失数据,A,B,C,D四个序列数据为生成数据,每个序列为是个数据,不存在缺失数据,如下表所示。
原始数据X | X1 | X2 | Na | X4 | X5 | X6 | Na | X8 | X9 | X10 |
生成数据A | A1 | A2 | A3 | A4 | A5 | A6 | A7 | A8 | A9 | A10 |
生成数据B | B1 | B2 | B3 | B4 | B5 | B6 | B7 | B8 | B9 | B10 |
生成数据C | C1 | C2 | C3 | C4 | C5 | C6 | C7 | C8 | C9 | C10 |
生成数据D | D1 | D2 | D3 | D4 | D5 | D6 | D7 | D8 | D9 | D10 |
删除生成数据的第三个数据和第七个数据,构造完成数据,其特征如下表所示。
原始数据X’ | X1 | X2 | X4 | X5 | X6 | X8 | X9 | X10 |
生成数据A’ | A1 | A2 | A4 | A5 | A6 | A8 | A9 | A10 |
生成数据B’ | B1 | B2 | B4 | B5 | B6 | B8 | B9 | B10 |
生成数据C’ | C1 | C2 | C4 | C5 | C6 | C8 | C9 | C10 |
生成数据D’ | D1 | D2 | D4 | D5 | D6 | D8 | D9 | D10 |
分别计算构造的原始数据X’与生成数据A’、B’、C’、D’的相似度,本案例采用MAPE计算相似度。其计算公式为
具体来说:
计算出所有的MAPE值后,选取计算所得最小的序列。假设minMAPE=MAPEX′,A′,则选取序列数据A,将A3,A7填补到原始数据中,填补后的时间序列数据为:
X1 | X2 | A3 | X4 | X5 | X6 | A7 | X8 | X9 | X10 |
至此,数据填补结束。
步骤S7中,将数据进行反归一化,最终完成数据填补,公式如下:
一般的缺失值的填补方法仅从临近数据分析问题,忽略了数据的全局分布特征。当数据缺失率较高时,不满足可观测性条件时,状态估计类的数据填补方法则无法使用。本实施方式的数据填补方法每次会生成完整周期数据,对数据缺失率敏感度相对较低。对于缺失率较高的时间序列数据,具有很好的效果。
本实施方式的数据填补方法每次会产生大量的虚拟数据,使得数据填补不再是传统方法中只产生一种填补结果。可以根据不同的时间序列数据特征,设置不同的对比方法,以得到不同的数据填补结果,有利于实现更精确的分析预测。
实施例二
在一个或多个实施方式中,公开了一种基于生成对抗网络的时间序列数据填补系统,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述的时间序列数据填补方法。
实施例三
在一个或多个实施方式中,公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行实施例一中所述的时间序列数据填补方法。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于生成对抗网络的时间序列数据填补方法,其特征在于,包括:
获取不同缺失率的数据集;
对上述的数据集进行归一化处理,根据数据周期,将时间序列数据转化为矩阵数据形式;
构造滑动窗口,将数据分成若干组,每组包含所有数据的若干列;
筛选各个组中不缺失数据的行,构造每个组的完整子矩阵数据;
将各个组中的完整子矩阵数据放入生成对抗网络中训练,使生成器和判别器达到平衡,最终生成若干虚拟数据;
筛选生成的虚拟数据,将虚拟数据填补到缺失数据中;
反归一化数据,最终完成数据填补。
3.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法,其特征在于,根据数据周期,将时间序列数据转化为矩阵数据形式,具体为:以小时、天、月、年时间周期分割数据,使每一行数据为一个周期。
5.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法,其特征在于,所述生成对抗网络中,生成器为了学习数据x的分布,由先验噪声分布Pz(z)构建了一个映射空间G(z;θg),对应的判别器映射函数为D(x;θd),输出一个标量表示x为真实数据的概率。
6.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法,其特征在于,筛选生成的虚拟数据,将虚拟数据填补到缺失数据中,具体为:
将原始缺失数据组与多个生成数据组进行对应,删除缺失数据组中数据缺失位置的数据,同时删除生成数据组中与数据缺失位置相对应的数据,形成新的原始数据组和生成数据组;分别计算新的原始数据组与每一个新的生成数据组的相似度,选取相似度值最小的生成数据组,将其与数据缺失位置相对应的数据填补到原始缺失数据组的相应位置。
8.一种基于生成对抗网络的时间序列数据填补系统,其特征在于,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7任一项所述的基于生成对抗网络的时间序列数据填补方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行权利要求1-7任一项所述的基于生成对抗网络的时间序列数据填补方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910453437.3A CN110175168B (zh) | 2019-05-28 | 2019-05-28 | 一种基于生成对抗网络的时间序列数据填补方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910453437.3A CN110175168B (zh) | 2019-05-28 | 2019-05-28 | 一种基于生成对抗网络的时间序列数据填补方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175168A CN110175168A (zh) | 2019-08-27 |
CN110175168B true CN110175168B (zh) | 2021-06-01 |
Family
ID=67695778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910453437.3A Active CN110175168B (zh) | 2019-05-28 | 2019-05-28 | 一种基于生成对抗网络的时间序列数据填补方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175168B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046027B (zh) * | 2019-11-25 | 2023-07-25 | 北京百度网讯科技有限公司 | 时间序列数据的缺失值填充方法和装置 |
CN111177135B (zh) * | 2019-12-27 | 2020-11-10 | 清华大学 | 一种基于界标的数据填补方法及装置 |
CN111143344A (zh) * | 2019-12-31 | 2020-05-12 | 新奥数能科技有限公司 | 一种用于时间序列数据缺失的补全方法及装置 |
CN111291867A (zh) * | 2020-02-17 | 2020-06-16 | 北京明略软件系统有限公司 | 数据预测模型生成方法、装置及数据预测方法、装置 |
CN112381303A (zh) * | 2020-11-19 | 2021-02-19 | 北京嘀嘀无限科技发展有限公司 | 一种任务指标数据预测方法和系统 |
CN112699547A (zh) * | 2020-12-25 | 2021-04-23 | 朗坤智慧科技股份有限公司 | 基于5g网络的滑动窗口式多元时间序列缺失值填充方法 |
CN113449468B (zh) * | 2021-06-22 | 2024-03-12 | 北京交通大学 | 一种锂离子电池组的多参数分布特性建模和参数生成方法 |
CN115019510B (zh) * | 2022-06-29 | 2024-01-30 | 华南理工大学 | 一种基于动态自适应生成对抗网络的交通数据修复方法 |
CN115145906B (zh) * | 2022-09-02 | 2023-01-03 | 之江实验室 | 一种面向结构化数据的预处理和补全方法 |
CN116049672A (zh) * | 2022-12-29 | 2023-05-02 | 中国互联网络信息中心 | 一种缺失数据的填充方法及装置 |
CN117828373A (zh) * | 2024-03-05 | 2024-04-05 | 四川省医学科学院·四川省人民医院 | 基于集合划分和自监督学习的缺失数据填充方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109242115A (zh) * | 2018-09-17 | 2019-01-18 | 东北大学 | 一种基于gan的风机轮毂测风缺失数据的插补方法 |
CN109376862A (zh) * | 2018-10-29 | 2019-02-22 | 中国石油大学(华东) | 一种基于生成对抗网络的时间序列生成方法 |
CN109784349A (zh) * | 2018-12-25 | 2019-05-21 | 东软集团股份有限公司 | 图像目标检测模型建立方法、装置、存储介质及程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10559111B2 (en) * | 2016-06-23 | 2020-02-11 | LoomAi, Inc. | Systems and methods for generating computer ready animation models of a human head from captured data images |
-
2019
- 2019-05-28 CN CN201910453437.3A patent/CN110175168B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109242115A (zh) * | 2018-09-17 | 2019-01-18 | 东北大学 | 一种基于gan的风机轮毂测风缺失数据的插补方法 |
CN109376862A (zh) * | 2018-10-29 | 2019-02-22 | 中国石油大学(华东) | 一种基于生成对抗网络的时间序列生成方法 |
CN109784349A (zh) * | 2018-12-25 | 2019-05-21 | 东软集团股份有限公司 | 图像目标检测模型建立方法、装置、存储介质及程序产品 |
Non-Patent Citations (1)
Title |
---|
Multivariate Time Series Imputation with Generative Adversarial Networks;Yonghong Luo;《32nd Conference on Neural Information Processing Systems(NeurIPS 2018)》;20181231;第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110175168A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175168B (zh) | 一种基于生成对抗网络的时间序列数据填补方法及系统 | |
US9367799B2 (en) | Neural network based cluster visualization that computes pairwise distances between centroid locations, and determines a projected centroid location in a multidimensional space | |
US20190340533A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
CN106203625B (zh) | 一种基于多重预训练的深层神经网络训练方法 | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN112085615B (zh) | 图神经网络的训练方法及装置 | |
US11423043B2 (en) | Methods and systems for wavelet based representation | |
US20150091909A1 (en) | Systems And Methods For Distance Approximation In Graphs | |
WO2022147237A1 (en) | Automated linear clustering recommendation for database zone maps | |
CN113298131A (zh) | 一种基于注意力机制的时序数据缺失值插补方法 | |
CN104899232B (zh) | 协同聚类的方法和设备 | |
Amato et al. | Estimation and group variable selection for additive partial linear models with wavelets and splines | |
CN116992607A (zh) | 一种结构拓扑优化方法、系统及装置 | |
CN116883007A (zh) | 一种催收动作推荐方法、系统、电子设备及存储介质 | |
CN116050119A (zh) | 一种基于二元表示的正负图分割多视图聚类方法 | |
CN114741532A (zh) | 基于多尺度分散动态路由的知识图谱补全方法及系统 | |
CN111091191B (zh) | 一种数据处理方法、装置及数据深度学习系统 | |
Singh et al. | Generating preferential attachment graphs via a Pólya urn with expanding colors | |
Qian et al. | Julia: Joint multi-linear and nonlinear identification for tensor completion | |
CN118608875B (zh) | 一种基于鲁棒遗传规划和特征学习的弱图像分类方法 | |
Kirkpatrick et al. | Correcting for cryptic relatedness in genome-wide association studies | |
US20230004557A1 (en) | Systems and Methods for Network Explainability | |
CN111898421B (zh) | 一种用于视频行为识别的正则化方法 | |
CN113011476A (zh) | 基于自适应滑动窗口gan的用户行为安全检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |