【发明内容】
针对现有技术的以上缺陷或改进需求,本发明解决了目前光模块故障处理时无法自动进行故障前和故障后数据分类的问题。
本发明实施例采用如下技术方案:
第一方面,本发明提供了一种光模块性能预测的方法,具体为:根据网络拓扑连接关系,将光模块本端发射端口和对端端口的DDM信息组成一组数据集,周期性读取数据集对应的数据;根据数据集中数据的分布特征计算光模块的性能劣化点,将性能劣化点之前的数据和性能劣化点之后的数据自动标注为不同的样本集;以数据集中光模块的基本属性和光模块的时间序列特征作为性能预测的预测特征;根据样本集和预测特征生成预测模型,通过预测模型对光模块未来的性能劣化点进行预测。
优选的,光模块的基本属性包括:工作温度、工作电压、偏置电流、发射光功率和对端接收光功率中的一项或多项;光模块的时间序列特征包括:工作电压、偏置电流、发射光功率和对端接收光功率的变化率和梯度。
优选的,根据数据集中的工作电压、偏置电流、发射光功率和对端接收光功率的平均曲率函数,分别获取每种属性的变化率;通过最小二乘法对数据集中的工作电压、偏置电流、发射光功率和对端接收光功率的变化曲线进行拟合,分别获取每种属性的梯度值。
优选的,根据数据集中数据的分布特征计算光模块的性能劣化点,包括:以DDM信息中的偏置电流达到预警门限值的前一个月的时间点作为自然老化的性能劣化点;根据DDM信息中的工作电压出现异常波动的时间点计算光模块内部突发故障的性能劣化点。
优选的,根据DDM信息中的工作电压出现异常波动的时间点计算光模块内部突发故障的性能劣化点,包括:计算采集时间点前一周时间区间内至少两个光模块的工作电压的标准差及前中位值的标准差;以正态分布中3倍标准差之外的最小时间点作为性能劣化点。
优选的,根据DDM信息中的工作电压出现异常波动的时间点计算光模块内部突发故障的性能劣化点,还包括:在计算工作电压的标准差时,使用每个本端作电压采样时间点之前预设调整时间段内的工作电压与前中位值的标准差,对每个工作电压的值进行调整。
优选的,将性能劣化点之前的数据和性能劣化点之后的数据自动标定为不同样本集,还包括:使用k均值对性能劣化点之前的数据集进行样本聚类,使用聚类后的样本集作为性能劣化点之前的样本集。
优选的,根据样本集和预测特征生成预测模型,包括:使用GBDT模型、XGBoost模型和LightGBM模型中的一种或多种作为预测模型。
优选的,通过预测模型对光模块未来的性能劣化点进行预测,还包括:当预测到潜在的性能劣化点,对预测的正确性进行确认;若预测正确,对光模块进行维护;若预测错误,将潜在的性能劣化点作为新的训练数据,重新对预测模型进行训练。
另一方面,本发明提供了一种光模块性能预测的装置,具体为:包括至少一个处理器和存储器,至少一个处理器和存储器之间通过数据总线连接,存储器存储能被至少一个处理器执行的指令,指令在被处理器执行后,用于完成第一方面中的光模块性能预测的方法。
与现有技术相比,本发明实施例的有益效果在于:利用网络拓扑取获取光模块本端和对端的的信息组成元数据集,并根据数据集的中数据的统计规律自动查找发生故障的性能劣化点,对性能劣化点前后的数据集自动进行分类标注,提高了样本集获取的自动化程度,无需通过人工方式进行标注,并根据标注后的样本集对光模块性能状态进行有效预测,相较基于阈值的简单判定规则能提前进行光模块性能预测,并及时产生预警信息,提示系统进行维护。在优选方案中,还通过增加样本集的数据维度,以及基于统计学方法的优化,提高了预测的准确度,并能同时对本侧和对侧的光模块进行性能监测。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明是一种特定功能系统的体系结构,因此在具体实施例中主要说明各结构模组的功能逻辑关系,并不对具体软件和硬件实施方式做限定。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。
实施例1:
关于光模块运行状态,SFF.8472协议规定了五个关键DDM信息:工作温度Temp、工作电压Vcc、偏置电流Tx_Bias、接收光功率Rx_Power、发射光功率Tx_Power。同时,协议中还规定各光模块厂商可以设置DDM范围,并对超出范围的属性进行告警。DDM中五个属性均与光模块劣化程度、预期剩余寿命相关,故可以使用DDM对光模块故障进行诊断和预警。从而为系统提供一种性能监测手段,可以帮助系统管理预测收发模块的寿命、隔离系统故障并在现场安装中验证模块的兼容性。
如图1所示,本发明实施例提供的光模块性能预测的方法具体步骤如下。
步骤101:根据网络拓扑连接关系,将光模块本端发射端口和对端端口的DDM信息组成一组数据集,周期性读取数据集对应的数据。
在光模块的使用中,可以使用DDM信息判断光模块的性能是否能够满足需要。光模块内部的光功率反馈控制单元会将Tx_Power控制在一个稳定的水平上,但随着激光器的老化,激光器的量子效率会降低,为了确保Tx_Power的稳定,需要提高激光器的Tx_Bias。因此可以通过监测激光器的Tx_Bias来预测其寿命。同时,激光器的Tx_Bias与Temp及Vcc密切相关,在设定Tx_Bias极限时需要考虑Temp和Vcc的影响。另一方面,在实际的光通信网络使用中,光纤两端的光模块成对使用,每个光模块内部的收发激光器独立工作,对端接收光功率Rx_Power与本端发送光功率Tx_Power强相关。因此,在本实施例中,为了预测某个光模块是否处于故障状态,采用了成对光模块DDM数据关联分析的方法,网管系统根据网络拓扑连接关系,选取该端口以及对应连接的对端端口的DDM信息,选取本端(Temp、Vcc、Tx_Bias、Tx_Power)+对端(Rx_Power)数据组成一组数据集。通过网管系统周期性采集数据集中的数据,每个周期设置一个数据采集点,采集相应的数据集作为性能预测的样本,在t时刻采集的数据集表示为(Temp、Vcc、Tx_Bias、Tx_Power、Rx_Power)t。具体实施中,可以根据预测精度、计算效率、数据处理能力等设置合适的读取周期,在优选方案中,采集周期为1分钟。
在光模块的实际使用中,可能会因为故障或自然老化而造成性能无法满足使用,本实施例提供的技术方案可以对这两种情况进行预测,将光模块可能发生故障的时间点,或因自然老化而导致性能无法满足使用需要的时间点,作为性能劣化点。在采集到的DDM数据中,采集时间在性能劣化点之前的视为非故障数据,光模块性能能够满足使用需要;采集时间在性能劣化点之后的数据视为故障数据,光模块的性能无法满足故障数据。在本实施例中,光模块的性能劣化点之前和之后采集的数据集分别被标记为“T”和“F”。
步骤102:根据数据集中数据的分布特征计算光模块的性能劣化点,将性能劣化点之前的数据和性能劣化点之后的数据自动标注为不同样本集。
为了对光模块的性能进行预测,需要将性能劣化点之前和之后的DDM数据分别组成不同的样本集对神经网络进行训练。目前的技术方案中,性能劣化点需要人工进行查找,性能劣化点之前和之后的样本集也需要人工进行标定。在本实施例中,通过数据集中数据的分布特征,进行统计学计算,以获取性能劣化点的位置,并对性能劣化点之前和之后的样本集自动进行标定。
在实际使用中,自然老化造成的性能不足和突发故障造成的性能不足,在数据的分布上具有不同的统计规律。在本实施例中,针对光模块自然老化和突发故障两种情况,使用不同的方式进行性能劣化点的查找。
(1)自然老化:自然老化情况下,为了确保Tx_Power的稳定,需要提高激光器的Tx_Bias。在自然老化的过程中,Tx_Bias会出现规律变化,因此,可以通过Tx_Bias的变化对光模块的老化情况进行预测,以DDM信息中的偏置电流Tx_Bias达到预警门限值的前一个月的时间点作为自然老化的性能劣化点。
(2)内部故障:故障早期激光器的Vcc会出现异常波动,可以根据DDM信息中的工作电压Vcc出现异常波动的时间点,通过下述公式1和公式2计算光模块内部突发故障的性能劣化点。为了准确的获取异常波动的时间点,在计算工作电压的均值和标准差时,使用每个工作电压采样时间点之前预设调整时间段内的工作电压与前中位值的标准差,根据下述公式1对每个工作电压的值进行调整。
具体的,对于每个数据采集点,需要获取多个光模块在数据采集时间点的前一周时间区间内的工作电压Vcc,并获取Vcc与前中位值的标准差Dt。具体的,Dt可以通过公式1进行计算。
其中,Dt为t时间点电压值前一周时间区间内电压值与前中位值的标准差。W代表前一周的总采样周期数,M代表一个月的总采样周期数。W和M的值根据具体的采样周期长度确定,例如,在采样周期为1分钟的场景中,W=7*24*60,M=30*24*60。min(Vt-i-Median[V(t-2M):(t-M)],0)表示Vt-i-Median[V(t-2M):(t-M)]和0之间的较小值。Median[V(t-2M):(t-M)]表示{Vi|i=t-2M,t-2M+1,···,t-M-1}区间的中位值,即t时间点前2月-前1月工作电压统计数据的中位值,由于自然老化过程中需要提高激光器的Tx_Bias,所以在正常运行情况下需要允许光模块的电压增大,因此差值需要与0进行比较,大于0时取0,Vcc视为中位值的数值。wi为t时间点电压值前一周数据标准差的权重值,用于增强标准差的鲁棒性,权重值根据计算时间段进行调整,本实施例中,wi根据一周内的时间跨度取均值,即wi=1/W。
获得标准差后,如图2所示,根据正态分布的3σ准则,正常工作情况下,Vcc数值都落在3σ之内,而落在3σ之外的数值可能为故障值。因此,本实施例提供的方案中,以Vcc的W时间内的正态分布中3倍标准差,即3σ之外的最小时间点作为性能劣化点。具体的,可以使用公式2进行计算。
其中,tc为性能劣化点,Dt为t时间点电压值前一周时间区间内电压值与前中位值的标准差,σe为在W时间内的正态分布中的标准差。根据实际运行场景中的性能数据,在自然老化和突发故障的情况下,性能劣化点的位置都符合公式2的计算结果。
通过上述计算,即可根据采集到的数据集自动计算出光模块自然老化和突发故障两种情况下的性能劣化点,使后续计算中能够对样本劣化点之前和之后的不同数据集进行区分和标注。
在某个具体实施场景中,设备运行了三个月,在在采样周期为1分钟的场景中t=129600,t时间点前2月-前1月工作电压统计数据的中位值Median[V(t-2M):t-M)]在该场景中的实际测量值为3.31V。wi根据一周内的时间跨度取均值,即wi=1/W,W=7*24*60。此时,该场景中计算出的Dt=0.018。根据正态分布的3σ准则和概率统计学原理,正常工作情况下,Vcc数值都落在3σ之内,而落在3σ之外的数值可能为故障值。根据计算出的Dt,落在3σ之外的数值可能为故障值,因此公式2可以检验t=129600时刻时是否可能为故障值。此时该场景中计算出的σe=0.0072,3σe=0.0216,Dt<3σe,因此t=129600时刻时,性能未劣化。由该场景实例可见,由于光模块有多维特性,每个采样并通过如下特征设计的方法,可以将数据映射到13维空间,对光模块未来的性能劣化点进行预测。
为了能够同时判断自然老化和突发故障,如图3所示,可以使用通过以下步骤将两种情况的分类标注进行整合。
步骤201:判断当前采样时间点获取到的数据集中Tx_Bias是否大于Tx_Bias预警门限值。若是,标注为“F”;若否,转步骤202。
当数据集中的Tx_Bias达到预警门限值时,表明当前光模块已自然老化,性能无法满足使用需求,标注为“F”。Tx_Bias未达到预警门限值,则进行下一步判断。
步骤202:根据工作电压Vcc计算Dt。
步骤203:判断Dt是否落在正态分布的3σ之外。若是,标注为“F”;若否,标注为“T”。
当Dt落在3σ之外时,表明当前光模块可能出现突发故障,性能无法满足使用需求,标注为“F”。否则,表明光模块性能指标正常,标注为“T”。
通过步骤201-步骤203,可以完成对样本数据的自动标注,通过不同的标准将采集到的数据集区分为性能劣化点之前的数据和性能劣化点之后的数据,使用同样标注的数据集的集合作为对应的样本集。该方法可以完全自动完成标注,并根据标注自动生成样本集,根据样本集的标注进行逻辑判断即可避免突发故障造成的误差,无需如现有技术一样人工进行标注,缩短了标注时间,提高了样本集的生成效率。
步骤103:以数据集中光模块的基本属性和光模块的时间序列特征作为性能预测的预测特征。
针对DDM信息数据量大、数据维度低的问题,为了提高预测准确度,本实施例中还应用了特征工程技术对数据维度进行扩展。原始DDM数据中光模块的基本属性只有5维:Temp、Vcc、Tx_Bias、Rx_Power、Tx_Power,在低维空间中样本数据难于区分。DDM采集数据随时间推移而变化,Vcc、Tx_Bias、Rx_Power、Tx_Power属性显示出较强的时间依赖性,如果只考虑最后一次采样周期的属性,无法做出准确的光模块故障预测。因此需要计算各基本属性的变化率和基本属性连续一段时间内的梯度。
具体的,可以通过如下特征设计的方法将数据映射到13维空间。
(1)5维原始特征:光模块基本属性Temp、Vcc、Tx_Bias、Rx_Power、Tx_Power。每个周期,在采样时间点t时刻,采集一组光模块基本属性(Temp、Vcc、Tx_Bias、Tx_Power、Rx_Power)t中的原始采样数据信息。
(2)8维时间序列特征:光模块基本属性Vcc、Tx_Bias、Rx_Power、Tx_Power的变化率和梯度,表示一段时间内光模块的时间序列特性。
其中,变化率和梯度可以通过以下方式进行计算。
(1)根据数据集中工作电压Vcc、偏置电流Tx_Bias、发射光功率Tx_Power和对端接收光功率Rx_Power的平均曲率函数,分别获取每种属性的变化率。
取时间区间d为各属性变化率的计算基准,变化率表示为:
VCt=Vt-Mean(Vt-24*60:Vt);其中,VCt表示Vcc变化率,Vt表示当前采样时间点的数据集中的Vcc,Mean(Vt-d:Vt)表示时间区间d中Vcc的均值。
TBCt=TBt-Mean(TBt-d:TBt);其中,TBCt表示Tx_Bias变化率,TBt表示当前采样时间点的数据集中的Tx_Bias,(TBt-d:TBt)表示时间区间d中Tx_Bias的均值。
TPCt=RPt-Mean(TPt-d:TPt);其中,TPCt表示Tx_Power变化率,TPt表示当前采样时间点的数据集中的Tx_Power,Mean(TPt-d:TPt)表示时间区间d中Tx_Power的均值。
RPCt=RPt-Mean(RPt-d:RPt);其中,RPCt表示Rx_Power变化率,RPt表示当前采样时间点的数据集中的Rx_Power,Mean(RPt-d:RPt)表示时间区间d中Rx_Power的均值。
上述计算中,d的值可以根据实际需要进行设置,并根据采样周期的长度进行计算。例如,在采样周期为1分钟,d的时间区间为1天的情况下,d=24*60。
(2)如图4所示,通过最小二乘法对数据集中的工作电压Vcc、偏置电流Tx_Bias、发射光功率Tx_Power和对端接收光功率Rx_Power的变化曲线进行拟合,分别获取每种属性的梯度值。
Vcc的梯度:VGt,通过求解以下最小二乘法回归问题得到
(a0,a1)为Vcc梯度拟合曲线参数。
Tx_Bias的梯度:TBt,通过求解以下最小二乘法回归问题得到
(a0,a1)为Tx_Bias梯度拟合曲线参数。
Tx_Power的梯度:TPt,通过求解以下最小二乘法回归问题得到
(a0,a1)为Tx_Power梯度拟合曲线参数。
Rx_Power的梯度:RPt,通过求解以下最小二乘法回归问题得到
(a0,a1)为Rx_Power梯度拟合曲线参数。
通过上述计算,将原始样本集中的5维数据扩展为13维,提高了性能预测的准确度。
进一步的,由于光模块故障频率较低,采集的数据中“T”样本的数量远高于“F”样本的数量,不平衡的数据将会影响模型训练的性能。因此,需要对原始样本集进行降采样处理,以得到“T”、“F”样本平衡的数据集用于模型训练。在本实施例中,使用k均值(K-Mean)方法将“T”样本数据集进行聚类处理,使“T”样本与“F”样本集趋于平衡,便于模型训练提高训练准确度。具体的,用k均值方法将“T”样本聚类,选出每一类中离中心最近的N个点作为该类的代表,得到新的“T”样本集,从而得到了“T”、“F”样本平衡的数据集用于模型训练。在具体实施中,可以根据数据量、预测精度、计算能力、效率等,选择合适的N的数量。
步骤104:根据样本集和预测特征生成预测模型,通过预测模型对光模块未来的性能劣化点进行预测。
通过上述步骤,获取到“T”样本与“F”样本各自的样本集后,即可使用样本集对神经网络进行训练,生成预测模型,并通过预测模型对光模块的性能劣化点进行预测。
在本实施例中,通过逻辑回归、梯度提升决策树和人工神经网络模型,综合考虑模型复杂度、训练时长和分类性能,选取梯度提升决策树模型(Gradient Boosting DecisionTree,简写为GBDT)作为神经网络的模型对光模块是否发生故障进行预测。具体的,如图5所示,为GBDT模型上线部署的逻辑结构图。在计算负荷允许的情况下,也可以使用GBDT模型的优化版本XGBoost模型、LightGBM模型等作为预测模型,以提交计算效率和预测准确度。和现有的基于阈值的判断规则相比,人工智能方法能够提前预测光模块的故障,提示系统进行维护。
进一步的,为了提高预测准确度,当预测到潜在的性能劣化点时,还需要对预测的正确性进行确认。若预测正确,表明光模块为潜在的故障点,可能在性能劣化点出现性能达不到使用需求的情况,可以对光模块的运行进行重点关注,或提前对光模块进行维护,以避免因光模块故障影响网络整体运行。若预测错误,表明预测模型还不够准确,将潜在的性能劣化点作为新的训练数据,重新对预测模型进行训练,以提高后续的预测准确度。在具体实施中,对于预测正确性的确认,可以由人工完成,也可以由专家系统完成。具体的,可以参考步骤102中对性能劣化点前后不同数据集的区分方法进行检查,判断预测时间点前后数据集中的数据是否符合分类标准,以确定预测的准确性。
经过本实施例中提供的步骤101-步骤104后,能在不对现有系统进行侵入性修改的前提下,仅通过定时从网管系统中读取光模块的DDM信息,即可在线进行模型分析,对光模块的性能状态作出有效预测。
本实施例提供的光模块性能预测的方法,通过建立光模块DDM信息与性能劣化之间的数据分析模型,对光模块性能状态进行有效预测,相较现有基于阈值的规则,能提前进行光模块性能预测并及时产生预警信息。其次,通过数据集中的接收光功率Rx_Power和发射光功率Tx_Power,建立网络中设备间发送端口/接收端口光模块的关联分析,同时监测本/对端光模块的性能状态。本实施例提供的方法,为大规模光模块应用场景如5G、数据中心提供了非侵入性数据驱动的在线光模块性能趋势分析方法,能有效提高通信系统智能运维水平,保障业务正常运行。
实施例2:
在上述实施例1提供的光模块性能预测的方法的基础上,本发明还提供了一种可用于实现上述方法的光模块性能预测的装置,如图6所示,是本发明实施例的装置架构示意图。本实施例的光模块性能预测的装置包括一个或多个处理器21以及存储器22。其中,图6中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器22作为一种光模块性能预测方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的光模块性能预测方法。处理器21通过运行存储在存储器22中的非易失性软件程序、指令以及模块,从而执行光模块性能预测的装置的各种功能应用以及数据处理,即实现实施例1的光模块性能预测的方法。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
程序指令/模块存储在存储器22中,当被一个或者多个处理器21执行时,执行上述实施例1中的光模块性能预测的方法,例如,执行以上描述的图1和图3所示的各个步骤。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(Read Only Memory,简写为:ROM)、随机存取存储器(Random AccessMemory,简写为:RAM)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。