CN117131022B

CN117131022B - 一种电力信息系统的异构数据迁移方法

Info

Publication number: CN117131022B
Application number: CN202311239407.5A
Authority: CN
Inventors: 朱恺; 关应元; 谢展鹰; 刘洪江; 陈绍培; 胡洋; 曾颖斌; 戴泽明
Original assignee: Zhuhai Zhiwang Information Technology Co ltd; Guangzhou Dongfang Electric Power Co ltd
Current assignee: Zhuhai Zhiwang Information Technology Co ltd; Guangzhou Dongfang Electric Power Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-03-29
Anticipated expiration: 2043-09-25
Also published as: CN117131022A

Abstract

本发明属于电力数据管理技术领域，具体涉及一种电力信息系统的异构数据迁移方法。一种电力信息系统的异构数据迁移方法，所述方法包括：步骤1：获取彼此异构的电力源数据和电力目标数据；步骤2：在电力源数据和电力目标数据中，选择特征集合；步骤3：使用均值差异映射模型来映射电力目标数据，得到映射电力目标数据；步骤4：通过领域适应损失来训练一个适应器；步骤5：对电力源数据进行降维和重构，以提取更高层次的特征表示；步骤6：训练领域对抗网络；步骤7：使用预设的迁移函数，将电力源数据的映射到映射电力目标数据。本发明实现了电力信息系统的异构数据迁移，带来了降低领域差异和提高了模数据利用率。

Description

一种电力信息系统的异构数据迁移方法

技术领域

本发明属于电力数据管理技术领域，具体涉及一种电力信息系统的异构数据迁移方法。

背景技术

电力系统是现代社会的重要基础设施之一，它承担着能源供应和电力分配的关键任务。为了确保电力系统的可靠性和效率，电力行业一直在积极探索各种技术和方法来提高电力系统的运营和管理。随着信息技术的快速发展，电力系统监测和管理变得更加智能化，但也面临着一系列挑战和问题。

电力系统中的数据多种多样，包括电力源数据、电力目标数据和其他相关数据。这些数据通常具有异构性，即来自不同数据源的数据格式、单位和结构可能不同。这种异构性使得数据的采集、整合和分析变得复杂和困难。传统的数据处理方法往往无法有效地处理这种异构数据，导致信息利用率低下。电力系统数据通常受到各种噪声、缺失值和异常值的影响。这些问题可能导致数据的质量下降，从而影响电力系统监测和管理的可靠性。为了获得准确的信息，必须对数据进行清洗、去除噪声、填补缺失值等预处理操作。传统的方法通常需要大量人工干预和复杂的规则制定，效率低下且难以应对大规模数据。

电力系统管理涉及多个领域，包括电力工程、数据科学、机器学习等。不同领域的数据和方法之间存在差异，因此需要跨领域的数据集成和知识融合。传统的数据集成方法通常需要专业领域知识和复杂的数据转换，难以实现高效的跨领域数据集成。在电力系统监测和管理中，通常需要将模型从一个领域(源领域)迁移到另一个领域(目标领域)，以适应不同领域的数据分布。传统的机器学习方法在面对领域变化时表现不佳，因为它们往往假设源领域和目标领域的数据分布是相同的。

特征工程是提取和选择合适的特征以用于建模的关键任务。电力系统数据通常具有高维特性，需要进行降维以减少计算复杂性和提高模型的泛化能力。传统的特征工程和降维方法通常需要大量的专业知识和经验，且结果不稳定。领域对抗和迁移学习是处理领域适应问题的重要方法。它们通过对抗训练来减小源领域和目标领域之间的领域差异，从而提高模型在目标领域上的性能。然而，现有的领域对抗和迁移学习方法仍然面临着模型稳定性、收敛速度和参数调整等挑战。

发明内容

本发明的主要目的在于提供一种电力信息系统的异构数据迁移方法，本发明实现了电力信息系统的异构数据迁移，带来了降低领域差异和提高了模数据利用率。

为解决上述技术问题，本发明提供一种电力信息系统的异构数据迁移方法，所述方法包括：

步骤1：获取彼此异构的电力源数据和电力目标数据；

步骤2：在电力源数据和电力目标数据中，选择特征集合；

步骤3：使用均值差异映射模型来映射电力目标数据，得到映射电力目标数据，使其与电力源数据在特征空间上的相似度超过设定的相似度阈值；

步骤4：通过领域适应损失来训练一个适应器，以减小电力源数据和映射电力目标数据之间的差异；

步骤5：对电力源数据进行降维和重构，以提取更高层次的特征表示；

步骤6：训练领域对抗网络，以最小化电力源数据和映射电力目标数据之间的领域差异；

步骤7：使用预设的迁移函数，将电力源数据映射到映射电力目标数据。

进一步的，所述步骤1中在获取彼此异构的电力源数据和电力目标数据后，还将分别对电力源数据和电力目标数据进行数据清洗、去除噪声、去除缺失值和数据标准化处理。

进一步的，所述步骤2具体包括：计算电力源数据和电力目标数据中每个特征的信息增益；对信息增益进行排序，选择前N个信息增益最高的特征作为电力源数据的特征集合F_s和电力目标数据的特征集合F_t。

进一步的，所述均值差异映射模型使用如下公式进行表示：

其中，MMD(F_s,F_t)为最大均值差异的值；为电力源数据中的第i个特征向量，表示电力源数据的一个样本在特征空间中的表示；/>为电力目标中的第j个特征向量，表示电力目标数据的一个样本在特征空间中的表示；n_s为电力源数据样本的数量；n_t为电力目标数据样本的数量；k(·,·)为核函数，用于计算样本在特征空间中的表示之间的相似度。

进一步的，步骤4中通过领域适应损失来训练一个适应器的方法包括：

子步骤4.1：使用基于深度神经网络的适应器来抽取电力源数据和映射电力目标数据的特征表示；所述适应器包括一个领域分类器D、一个共享的特征提取器F_shared和两个不同的分类器C_s和C_t；得到电力源数据特征表示为：

H_s＝F_shared(X_s)，

其中X_s是电力源数据，H_s是电力源数据的特征表示；

得到映射电力目标数据特征表示为：

H_t＝F_shared(X_t)，

其中X_t是映射电力目标数据，H_t是映射电力目标数据的特征表示；

步骤4.2：电力源数据分类器C_s将电力源数据分类到其对应的类别，领域分类器D用于区分电力源数据和映射电力目标数据；所述分类器C_s为一个多层感知器；

步骤4.3：领域适应损失是基于深度神经网络的适应器的损失函数，它包括：电力源数据分类损失和领域分类损失；设定优化目标为最小化领域适应损失；使用如下公式表示优化目标：

其中，L_da为领域适应损失。

进一步的，所述电力源数据分类器使用如下公式进行表示：

C_s(H_s)＝σ(W_csH_s+b_cs)；

其中，W_cs和b_cs是电力源数据分类器的权重和偏置参数；σ(·)表示激活函数；

所述领域适应损失使用如下公式进行表示：

L_da＝αL_src-βL_domain；

其中，L_src为电力源数据分类损失；L_domain为领域分类损失；α和β是权重参数，为预设值，用于平衡两个损失项的重要性。

进一步的，

所述电力源数据分类损失使用如下公式进行表示：

其中，是电力源数据样本i的真实值；

所述领域分类损失使用如下公式进行表示：

其中，n_s和n_t分别是电力源数据和映射电力目标数据的样本数量。

进一步的，所述步骤5中，使用改进的自动编码器对电力源数据进行降维和重构，以提取更高层次的特征表示；所述改进的自动编码器的损失函数使用如下公式进行表示：

其中，L_ae为自动编码器的损失函数；为电力源数据中的第i个样本的真实值；g(·)为解码器函数，用于从编码后的特征重构输入数据；f(·)为编码器函数，将电力源数据映射到低维特征空间；/>表示重构误差；λ₂和λ₃均为权重调整参数，用于平衡重构误差与正则化项的重要性；W为自动编码器的权重矩阵，用于将电力源数据的特征表示映射到低维特征空间和从低维特征空间映射回原始特征空间；/>为正则化项，表示权重矩阵的Frobenius范数的平方，用于控制权重的大小，以防止过拟合；/>为添加噪声后的电力源数据中的第i个样本的值。

进一步的，所述步骤6中训练领域对抗网络时的领域对抗网络的损失函数使用如下公式进行表示：

其中，K(·)表示领域对抗网络；为映射电力目标数据中的第j个样本的真实值。

进一步的，所述步骤7中预设的迁移函数为基于深度神经网络的一个非线性映射模型T；所述迁移函数的损失值使用如下公式进行表示：

其中，T(·)表示非线性映射模型T，L_T是非线性映射模型T的层数，W_l表示非线性映射模型T的第l层权重矩阵，λ₄是权重正则化参数。

本发明的一种电力信息系统的异构数据迁移方法，具有以下有益效果：本发明的方法首先解决了电力系统中异构数据处理和整合的问题。传统电力系统中，来自不同数据源的数据格式、单位和结构可能各不相同，导致数据处理困难。本发明通过选择特征集合并使用均值差异映射模型，将电力目标数据映射到与电力源数据相似的特征空间，从而实现了异构数据的有效整合。这使得不同数据源的信息能够被更好地利用，有助于提高电力系统监测和管理的精度。适应器的训练通过领域适应损失来最小化源领域和目标领域之间的差异。这有助于模型更好地适应目标领域的数据分布，从而提高了模型在目标领域上的性能。适应器的训练有助于提高模型的泛化能力，使其能够在不同领域的数据上表现良好。这意味着即使在未见过的目标领域中，模型仍然可以有效地应用，降低了重新训练模型的需求，提高了系统的灵活性和可维护性。适应器的训练过程中，通过领域适应损失对抗源领域和目标领域之间的差异，可以降低过拟合的风险。这有助于提高模型的稳定性和鲁棒性，尤其是在数据量有限的情况下。领域对抗网络通过对抗训练来减小源领域和目标领域之间的领域差异。这有助于模型更好地适应目标领域的数据，提高了模型的性能。领域对抗网络的引入可以提高模型在面对领域适应问题时的稳定性。它通过最小化领域适应损失来实现模型的领域不变性，从而减小了领域变化的影响。均值差异映射模型通过映射电力目标数据，将其映射到与电力源数据相似的特征空间。这有助于实现特征空间的迁移，使得目标领域的数据能够更好地与源领域的数据对齐。映射后的电力目标数据与源领域的数据在特征空间上更加相似，从而提高了模型在目标领域上的性能。模型可以更准确地捕捉目标领域的特征和模式。均值差异映射模型的应用使得目标领域数据能够更充分地利用，从而提高了数据利用率。这有助于提高电力系统管理的效率和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种电力信息系统的异构数据迁移方法的方法流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1：参考图1，一种电力信息系统的异构数据迁移方法，所述方法包括：

步骤1：获取彼此异构的电力源数据和电力目标数据；电力数据可能包括电流、电压、功率、频率等多种参数，这些数据通常以时间序列的形式存在。电力源数据通常来自不同的发电站、不同的传感器和设备，这些数据可能具有不同的采样频率、数据格式和维度。电力目标数据可能是用户需求数据、市场价格数据等，它们也可以具有不同的数据结构和特征。因此，在此步骤中，首要任务是从多个异构数据源中收集这些数据，这些数据在维度、格式和特性上都可能不同。

步骤2：在电力源数据和电力目标数据中，选择特征集合；从电力源数据和电力目标数据中选择特定的特征集合。电力数据的特征可能包括频率分量、谐波成分、峰值功率等。选择合适的特征集合是为了在后续步骤中建立有效的映射关系。在电力数据中，特征通常是指代表电力系统状态和性能的各种测量和参数，如电流、电压、功率因数等。在此步骤中，选择特征集合的目的是从大量的数据中筛选出最具代表性和重要性的特征，以降低后续处理的复杂性和计算成本。这个选择可能基于领域专业知识和数据分析的需求。

步骤3：使用均值差异映射模型来映射电力目标数据，得到映射电力目标数据，使其与电力源数据在特征空间上的相似度超过设定的相似度阈值；均值差异是指电力源数据和电力目标数据在特征空间中的均值之间的差异。通过映射电力目标数据，使其在特征空间上与电力源数据的均值差异超过一个设定的相似度阈值，可以确保目标数据与源数据具有一定程度的相似性。这有助于保留数据的重要特性，同时减小了异构数据的影响。

步骤4：通过领域适应损失来训练一个适应器，以减小电力源数据和映射电力目标数据之间的差异；领域适应损失是一种损失函数，它衡量了在特征空间中源数据和目标数据之间的差异。通过训练一个适应器来最小化这个损失函数，可以实现源数据和映射目标数据之间的更好的匹配。

步骤5：对电力源数据进行降维和重构，以提取更高层次的特征表示；在电力数据分析中，通常会使用降维技术来提取更高层次的特征表示。这可以帮助减少数据的维度，同时保留重要信息。降维后的数据可以更容易地用于后续的建模和分析。

步骤6：训练领域对抗网络，以最小化电力源数据和映射电力目标数据之间的领域差异；领域对抗网络用于最小化电力源数据和映射电力目标数据之间的领域差异。领域差异指的是数据来自不同的电力源数据，可能具有不同的分布。通过训练对抗网络，可以将源数据和目标数据映射到共享的特征空间中，以减小领域差异，从而增加数据的一致性和可用性。

步骤7：使用预设的迁移函数，将电力源数据映射到映射电力目标数据。使用预设的迁移函数将电力源数据映射到映射电力目标数据。这个函数可能是基于前面步骤中训练的模型和参数得出的。它确保了数据的一致性和可用性，并使数据可以直接用于后续的应用，如电力系统监测、故障检测等。

具体的，电力数据的特性之一是它们可能来自不同领域，例如不同的电力系统、地理位置或操作条件。这些领域差异可以导致数据分布的不同，使得在不同领域中使用数据变得复杂。领域适应损失的创造性在于它通过训练适应器，将不同领域的数据映射到共享的特征空间中，以减小领域差异。这有助于提高数据的一致性，使不同领域的数据更容易进行比较和分析。电力数据的另一特性是它们可能在不同领域中具有不同的统计分布，例如不同地理区域的电力系统可能存在差异。领域对抗网络的创造性在于它通过对抗训练来减小领域差异，使不同领域的数据在共享特征空间中更加一致。这有助于提高数据的泛化性能和可迁移性，使模型在不同领域中都能有效地工作。

实施例2：在上一实施例的基础上，所述步骤1中在获取彼此异构的电力源数据和电力目标数据后，还将分别对电力源数据和电力目标数据进行数据清洗、去除噪声、去除缺失值和数据标准化处理。

具体的，数据清洗是在获取数据后的一个重要步骤。电力数据可能受到各种干扰，例如仪器误差、传感器故障或通信问题，这些可能导致数据中存在异常值或噪声。数据清洗的目的是检测和纠正这些问题，以确保数据的准确性。例如，可以使用统计方法或领域知识来识别和修复异常值，以免其对后续分析产生不良影响。电力数据可能会因为传感器故障或通信问题而包含缺失值。在数据分析和建模中，缺失值通常是不可接受的，因为它们可能导致模型不稳定或失效。因此，去除缺失值是一个必要的步骤，可以使用插值方法或其他技术来填补缺失值，以保持数据的完整性。电力数据可能包含与电力系统本身无关的噪声，这些噪声可以干扰数据的分析和建模。去除噪声的目的是提高数据的信噪比，使数据更具信息价值。这可以通过滤波技术、平滑方法或信号处理方法来实现，以去除高频或低频噪声。电力源数据和电力目标数据可能具有不同的单位和量纲，这会对后续的数据分析和建模造成问题。数据标准化的目的是将数据调整到相同的尺度，以便它们可以直接进行比较和分析。标准化通常涉及将数据转换为均值为0、标准差为1的标准正态分布，或使用其他方法进行缩放和变换，以确保数据在相同的尺度上。

实施例3：在上一实施例的基础上，所述步骤2具体包括：计算电力源数据和电力目标数据中每个特征的信息增益；对信息增益进行排序，选择前N个信息增益最高的特征作为电力源数据的特征集合F_s和电力目标数据的特征集合F_t。

具体的，对于电力源数据和电力目标数据，首先计算整体数据的信息摘H(S)。这需要根据数据中类别的分布来计算。对于每个特征A，计算在给定该特征条件下的条件摘H(S∣A)。这意味着需要计算在特征A的各个取值情况下的条件概率分布，然后计算对应的条件摘。计算特征A的信息增益IG(S,A)。使用信息增益公式，将整体数据的信息摘H(S)减去条件摘H(S∣A)即可得到信息增益。计算每个特征的信息增益。对所有特征的信息增益进行排序，选择前N个信息增益最高的特征作为电力源数据和电力目标数据的特征集合。

实施例4：在上一实施例的基础上，所述均值差异映射模型使用如下公式进行表示：

具体的，均值差异映射模型MMD是一种用于度量两个数据集之间相似性的方法，其基本原理是通过核函数来度量两个数据集在特征空间中的分布差异。核函数计算了数据集中每个样本在特征空间中的表示之间的相似度，然后通过对这些相似度进行组合来得出最终的相似性度量。MMD的核心思想是，如果两个数据集在特征空间中的分布相似，那么它们的样本之间的相似度应该较高，反之则较低。

内部均值差异这一项用于度量电力源数据内部样本之间的相似度。它计算了电力源数据中每对样本之间的相似度，并取平均值。如果电力源数据在特征空间中的分布均匀，那么这一项的值较低。源目标均值差异这一项用于度量电力源数据和电力目标数据之间的相似度。它计算了电力源数据和电力目标数据之间的样本相似度，并取平均值。如果两者在特征空间中的分布相似，那么这一项的值较低。目标内部均值差异这一项用于度量电力目标数据内部样本之间的相似度。它计算了电力目标数据中每对样本之间的相似度，并取平均值。如果电力目标数据在特征空间中的分布均匀，那么这一项的值较低。目标内部均值差异与第三项类似，这一项用于度量电力目标数据内部样本之间的相似度。

均值差异映射模型MMD的主要作用是度量两个数据集之间的分布差异，特别适用于领域自适应和数据迁移任务。如果电力源数据和电力目标数据来自不同领域，它们的分布可能有很大差异。通过计算MMD，可以量化这种差异，并帮助调整数据，使它们在特征空间中更相似，从而提高领域适应性。MMD可以用于选择对于任务最相关的特征。通过比较不同特征集合的MMD值，可以确定哪些特征对于数据的分类或目标预测最为重要。

实施例5：在上一实施例的基础上，步骤4中通过领域适应损失来训练一个适应器的方法包括：

H_s＝F_shared(X_s)，

其中X_s是电力源数据，H_s是电力源数据的特征表示；

得到映射电力目标数据特征表示为：

H_t＝F_shared(X_t)，

步骤4.2：电力源数据分类器C_s将电力源数据分类到其对应的类别，领域分类器D用于区分电力源数据和映射电力目标数据；所述分类器Cs为一个多层感知器；

其中，L_da为领域适应损失。

具体的，首先，使用共享的特征提取器F_shared，将电力源数据X_S和映射电力目标数据X_t映射到特征表示空间。这个特征提取器是一个深度神经网络，可以学习数据的高级特征表示。这一步的目标是将不同领域的数据映射到相似的特征空间，以减小领域差异。接下来，训练两个重要的组件：电力源数据分类器C_s和领域分类器D。C_s的任务是将电力源数据的特征表示分类为不同的类别，例如电力系统状态的分类。D的任务是区分输入数据是来自电力源数据还是映射电力目标数据，即进行领域分类。这两个分类器协同工作，帮助模型学习适应不同领域之间的差异。领域适应损失(L_DA)是这个方法的核心。它包括两个部分：电力源数据分类损失和领域分类损失。通过最小化这个损失，模型被迫学习如何将电力源数据映射到正确的类别，同时减小电力源数据和映射电力目标数据之间的领域差异。这可以通过反向传播算法和优化器来实现，以更新特征提取器F_shared、电力源数据分类器C_s和领域分类器D的参数。

这个方法的主要作用是实现领域自适应，即将来自不同领域的电力数据映射到一个共享的特征空间，以便在这个空间中进行分类或其他任务。以下是其作用的具体解释：通过培训过程中的领域适应损失，模型被鼓励将电力源数据和映射电力目标数据映射到相似的特征空间。这有助于减小两个数据集之间的领域差异，使它们更适合在共享特征表示空间中进行比较和分析。特征提取器F_shared学习如何提取电力数据的有用特征表示，这些特征可以用于分类等任务。这有助于提高电力数据的特征表示质量，从而提高后续任务的性能。模型的领域分类器D学习如何区分不同领域的数据。这有助于模型了解领域差异，并通过调整特征表示来适应这些差异，从而增强模型的泛化能力。

实施例6：在上一实施例的基础上，所述电力源数据分类器使用如下公式进行表示：

C_s(H_s)＝σ(W_csH_s+b_cs)；

其中，W_cs和b_cs是电力源数据分类器的权重和偏置参数；σ(·)表示激活函数；C_s(H_s)表示电力源数据分类器对特征表示H_s的分类结果，这是一个分类任务的输出。σ(·)是激活函数，通常用于引入非线性。激活函数的作用是将线性组合的结果转换为非线性概率分布，以增加模型的表达能力。W_cs和b_cs是电力源数据分类器的权重和偏置参数，它们通过训练过程中学习得到。W_cs用于线性变换特征表示H_s，而b_cs是偏置项。电力源数据分类器的原理是将输入的特征表示H_s映射到相应的类别，以执行分类任务。这通常涉及将特征表示与权重矩阵相乘，加上偏置，并通过激活函数进行非线性变换。这样的模型学习如何从数据的特征中提取并捕捉与分类任务相关的信息。电力源数据分类器的作用是将特征表示H_s转化为对应类别的概率分布，从而实现对电力源数据的分类任务。通过训练分类器，模型能够学习如何将特征表示映射到正确的类别标签，使其具有分类预测的能力。

所述领域适应损失使用如下公式进行表示：

L_da＝αL_src-βL_domain；

L_DA是领域适应损失，用于培训模型以减小电力源数据和映射电力目标数据之间的领域差异。α和β是重参数，用于平衡电力源数据分类损失和领域分类损失的重要性。L_src是电力源数据分类损失，度量电力源数据分类任务的性能。L_domain是领域分类损失，度量模型对领域分类的性能。领域适应损失的原理是通过最小化L_src和最大化L_domain来训练模型。这样的目标是使模型在电力源数据分类任务上表现良好，同时最大程度地减小电力源数据和映射电力目标数据之间的领域差异。通过调整α和β的值，可以控制模型在两个任务之间的权衡。领域适应损失的作用是培训模型以适应不同领域数据的分布差异，从而提高模型在映射电力目标数据的泛化性能。通过最小化L_DA，模型被迫学习如何将电力源数据和映射电力目标数据映射到相似的特征表示空间，减小领域差异，使模型更适合在映射电力目标数据中使用。

实施例7：在上一实施例的基础上，

所述电力源数据分类损失使用如下公式进行表示：

其中，是电力源数据样本i的真实值；

具体的，电力源数据分类损失的原理是使用二元交叉熵(BinaryCross-Entropy)损失来衡量模型在电力源数据上的分类性能。这个损失函数用于评估模型的分类预测与真实标签之间的差异，它是常用于二分类任务的损失函数。具体而言，这个损失函数对每个电力源数据样本i都计算了一个损失项。损失项的计算包括两个部分：对于正样本(表示样本属于某个类别)，损失项包括log(C_s(H_s))，对于负样本(/>表示样本不属于该类别)，损失项包括log(1-C_s(H_s))。这两部分分别测量了正样本的分类概率和负样本的分类概率。整个损失函数的计算是通过对所有电力源数据样本的损失项求平均得到的，即对每个样本的损失项进行求和并除以电力源数据样本数量n_s。它用于度量模型在电力源数据上的分类性能。通过衡量模型的分类预测与真实标签之间的差异，可以了解模型对电力源数据的分类准确性。损失函数是训练深度学习模型的关键组成部分。通过最小化电力源数据分类损失，模型被迫学习如何调整权重和偏置，以提高其分类预测的准确性。损失函数鼓励模型生成更接近真实标签的分类概率。这有助于改进分类器的性能，使其能够更好地区分不同类别。

所述领域分类损失使用如下公式进行表示：

具体的，领域分类损失的原理是使用二元交叉熵(BinaryCross-Entropy)损失来衡量模型对领域分类的性能，即判断输入数据是来自电力源数据还是映射电力目标数据。对于来自电力源数据的样本，损失项为D(H_s)，其中D(H_s)表示模型对该样本预测为电力源数据的概率。对于来自映射电力目标数据的样本，损失项为1-D(H_t)，其中D(H_t)表示模型对该样本预测为映射电力目标数据的概率。整个损失函数的计算是通过对所有电力源数据和映射电力目标数据样本的损失项求平均得到的，即对所有样本的损失项进行求和并除以总样本数量(n_s+n_t)。这个损失函数的主要作用是培训模型以减小电力源数据和映射电力目标数据之间的领域差异。通过让模型学习如何正确地将数据分类为电力源数据或映射电力目标数据，可以实现领域适应，使模型更好地适应映射电力目标数据的数据分布。损失函数还用于度量模型对领域分类任务的性能。它衡量了模型对不同领域数据的判别能力，即模型能否准确地识别数据的来电力源数据。通过最小化领域分类损失，模型被迫学习如何将电力源数据和映射电力目标数据映射到相似的特征表示空间，从而减小领域差异。这有助于模型在映射电力目标数据上具有更好的泛化性能。

实施例8：在上一实施例的基础上，所述步骤5中，使用改进的自动编码器对电力源数据进行降维和重构，以提取更高层次的特征表示；所述改进的自动编码器的损失函数使用如下公式进行表示：

具体的，改进的自动编码器的目标是对电力源数据进行降维和重构，以提取更高层次的特征表示。它包括编码器(f(·))和解码器(g(·))。编码器将电力源数据映射到低维特征空间，解码器将低维特征重构为原始特征空间的输入。

这一项衡量了原始电力源数据与解码后的数据之间的差异。它的目标是最小化重构误差，以确保编码器和解码器能够有效地保留数据的信息。

正则化项1：

这一项是权重矩阵W的Frobenius范数的平方，用于控制权重的大小，以防止模型过度拟合。它有助于保持权重矩阵的稳定性。

正则化项2：

这一项用于衡量源数据经过添加噪声后的重构误差。它的目标是使模型对噪声数据具有一定的鲁棒性，从而提高特征提取的稳定性。

改进的自动编码器的作用如下：编码器将原始电力源数据映射到低维特征空间，从中提取更高层次的特征表示。这有助于模型捕捉数据中的重要信息并减少特征的维度，从而提高模型的泛化能力。解码器将低维特征重构为原始特征空间的输入，帮助模型学习如何保留原始数据的重要信息。通过最小化重构误差，自动编码器鼓励模型产生与原始数据相似的数据。正则化项1有助于控制权重矩阵的大小，防止模型过度拟合源数据。正则化项2通过添加噪声并测量重构误差，有助于模型对噪声数据具有鲁棒性，提高特征提取的稳定性。

实施例9：在上一实施例的基础上，所述步骤6中训练领域对抗网络时的领域对抗网络的损失函数使用如下公式进行表示：

具体的，电力源数据样本的对抗损失项：

这一项的目标是最大化领域对抗网络K(·)对电力源数据样本的分类误差，即让领域对抗网络无法准确区分哪些样本来自电力源数据。

映射电力目标数据样本的对抗损失项：

这一项的目标是最大化领域对抗网络对映射电力目标数据样本的分类误差，即让领域对抗网络无法准确区分哪些样本来自映射电力目标数据。综合上述两项，领域对抗网络的目标是最小化领域对抗损失，使模型学习如何在电力源数据和映射电力目标数据之间模糊界限，从而实现领域适应。

领域对抗网络的损失函数具有以下作用：通过引入领域对抗损失，模型被迫学习如何最小化电力源数据和映射电力目标数据之间的领域差异。领域对抗网络的目标是使领域差异最小化，从而提高模型在映射电力目标数据上的泛化性能。领域对抗损失还用于度量模型对领域分类任务的性能。它衡量了模型对不同领域数据的判别能力，即模型能否准确地识别数据的来电力源数据。对抗训练是一种通过最小化领域对抗损失来训练模型的方法。通过最小化这个损失，模型被迫学习如何使电力源数据和映射电力目标数据的特征表示尽可能接近，从而实现领域适应。

实施例10：在上一实施例的基础上，所述步骤7中预设的迁移函数为基于深度神经网络的一个非线性映射模型T；所述迁移函数的损失值使用如下公式进行表示：

具体的，非线性映射模型T的目标是将电力源数据的特征表示映射到映射电力目标数据的特征表示，从而实现特征空间的迁移。损失函数L_T包含两个部分：

特征映射误差项：

这一项衡量了映射后的电力源数据特征与映射电力目标数据特征之间的差异。目标是最小化特征映射误差，以确保电力源数据和映射电力目标数据的特征表示尽可能接近。

权重正则化项：

这一项用于控制非线性映射模型T的权重矩阵的大小，以防止过拟合。正则化项通过惩罚权重的大小来确保模型的泛化能力。

非线性映射模型T和相应的损失函数S_T具有以下作用：通过最小化特征映射误差，非线性映射模型T被训练以实现特征空间的迁移。这有助于使电力源数据和映射电力目标数据在特征表示空间中更加接近，从而提高模型在映射电力目标数据上的性能。正则化项有助于控制非线性映射模型T的权重矩阵的大小，以防止过度拟合。通过惩罚权重的大小，正则化项有助于保持模型的稳定性。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种电力信息系统的异构数据迁移方法，其特征在于，所述方法包括：

步骤1：获取彼此异构的电力源数据和电力目标数据；

步骤2：在电力源数据和电力目标数据中，选择特征集合；

步骤7：使用预设的迁移函数，将电力源数据映射到映射电力目标数据；

步骤4中通过领域适应损失来训练一个适应器的方法包括：

H_s＝F_shared(X_s)，

其中X_s是电力源数据，H_s是电力源数据的特征表示；

得到映射电力目标数据特征表示为：

H_t＝F_shared(X_t)，

其中，L_da为领域适应损失。

2.如权利要求1所述的电力信息系统的异构数据迁移方法，其特征在于，所述步骤1中在获取彼此异构的电力源数据和电力目标数据后，还将分别对电力源数据和电力目标数据进行数据清洗、去除噪声、去除缺失值和数据标准化处理。

3.如权利要求1所述的电力信息系统的异构数据迁移方法，其特征在于，所述步骤2具体包括：计算电力源数据和电力目标数据中每个特征的信息增益；对信息增益进行排序，选择前N个信息增益最高的特征作为电力源数据的特征集合F_s和电力目标数据的特征集合F_t。

4.如权利要求3所述的电力信息系统的异构数据迁移方法，其特征在于，所述均值差异映射模型使用如下公式进行表示：

5.如权利要求4所述的电力信息系统的异构数据迁移方法，其特征在于，所述电力源数据分类器使用如下公式进行表示：

C_s(H_s)＝σ(W_csH_s+b_cs)；

所述领域适应损失使用如下公式进行表示：

L_da＝αL_src-βL_domain；

6.如权利要求5所述的电力信息系统的异构数据迁移方法，其特征在于，

所述电力源数据分类损失使用如下公式进行表示：

其中，是电力源数据样本i的真实值；

所述领域分类损失使用如下公式进行表示：

7.如权利要求6所述的电力信息系统的异构数据迁移方法，其特征在于，所述步骤5中，使用改进的自动编码器对电力源数据进行降维和重构，以提取更高层次的特征表示；所述改进的自动编码器的损失函数使用如下公式进行表示：

8.如权利要求7所述的电力信息系统的异构数据迁移方法，其特征在于，所述步骤6中训练领域对抗网络时的领域对抗网络的损失函数使用如下公式进行表示：

9.如权利要求8所述的电力信息系统的异构数据迁移方法，其特征在于，所述步骤7中预设的迁移函数为基于深度神经网络的一个非线性映射模型T；所述迁移函数的损失值使用如下公式进行表示：