CN114116835A

CN114116835A - 一种查询超时预测方法及装置

Info

Publication number: CN114116835A
Application number: CN202111339471.1A
Authority: CN
Inventors: 黄文强
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-01
Anticipated expiration: 2041-11-12
Also published as: CN114116835B

Abstract

本发明提供了一种查询超时预测方法及装置，可应用于分布式领域或金融领域，通过对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线，依据该拟合曲线可以准确确定目标数据表在预计归档时间的数据量对应的预估查询时间，从而基于该预估查询时间判定目标数据表在预计归档时间是否存在查询超时，进而便于在判定目标数据表在预计归档时间存在查询超时的情况下，尽早调整归档时间或优化目标数据表的存储，避免出现由于目标数据表数据量过大导致的系统存储空间不足报错或出现查询超时报错，提高查询效率。

Description

一种查询超时预测方法及装置

技术领域

本发明涉及计算机技术领域，更具体的，涉及一种查询超时预测方法及装置。

背景技术

随着信息技术的发展，各个组织机构一般都采用数字化办公，相关数据都存储在系统数据库中。

由于系统中每时每刻都可能有新的数据产生，系统数据库中的数据量随之不断增加，这样就会导致系统存储空间不足或数据查询缓慢，甚至出现系统存储空间不足报错或出现查询超时报错。

发明内容

有鉴于此，本发明提供了一种查询超时预测方法及装置，准确判定目标数据表在预计归档时间是否存在查询超时。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种查询超时预测方法，包括：

获取目标数据表在预计归档时间的数据量；

对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线；

依据所述查询时间拟合曲线，确定所述目标数据表在预计归档时间的数据量对应的预估查询时间；

基于所述预估查询时间判定所述目标数据表在预计归档时间是否存在查询超时。

可选的，所述获取目标数据表归档时的数据量，包括：

获取所述目标数据表的预计归档时间；

根据历史数据预测所述目标数据表在预计归档时间的数据量。

可选的，获取所述目标数据表的预计归档时间，包括：

分析历史数据中所述目标数据表的归档规律；

根据所述目标数据表的归档规律，确定所述目标数据表的预计归档时间。

可选的，所述根据历史数据预测所述目标数据表在预计归档时间的数据量，包括：

对历史数据中所述目标数据表在不同时间的数据量进行线性拟合，得到表示数据量与时间之间的对应关系的数据量拟合曲线；

根据所述数据量拟合曲线，预测所述目标数据表在预计归档时间的数据量。

获取预计归档时间的时间特征；

将预计归档时间的时间特征输入预先构建的数据量预测模型中进行处理，得到所述目标数据表在预计归档时间的数据量，所述数据量预测模型是预先利用标注有数据量的训练样本对神经网络模型进行训练及验证后得到的，训练样本为所述目标数据表在不同时间特征下的数据量样本。

可选的，所述方法还包括：

在判定所述目标数据表在预计归档时间存在查询超时的情况下，调整所述目标数据表的归档时间，使调整后的归档时间在预计归档时间之前。

可选的，所述方法还包括：

在判定所述目标数据表在预计归档时间存在查询超时的情况下，按照预设规则，对所述目标数据表进行分布式存储，并修改所述目标数据表的查询路由。

可选的，在获取目标数据表在预计归档时间的数据量之后，所述方法还包括：

判断所述目标数据表在预计归档时间的数据量是否超过最大数据量；

若超过最大数据量，提示所述目标数据表在预计归档时间的存储空间不足；

若未超过最大数据量，执行所述对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线。

一种查询超时预测装置，包括：

数据量获取单元，用于获取目标数据表在预计归档时间的数据量；

线性拟合单元，用于对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线；

查询时间预测单元，用于依据所述查询时间拟合曲线，确定所述目标数据表在预计归档时间的数据量对应的预估查询时间；

查询超时判定单元，用于基于所述预估查询时间判定所述目标数据表在预计归档时间是否存在查询超时。

可选的，所述数据量获取单元，包括：

归档时间获取子单元，用于获取所述目标数据表的预计归档时间；

数据量预测子单元，用于根据历史数据预测所述目标数据表在预计归档时间的数据量。

可选的，所述归档时间获取子单元，具体用于：

分析历史数据中所述目标数据表的归档规律；

可选的，所述数据量预测子单元，具体用于：

获取预计归档时间的时间特征；

可选的，所述装置还包括：

归档时间调整单元，用于在判定所述目标数据表在预计归档时间存在查询超时的情况下，调整所述目标数据表的归档时间，使调整后的归档时间在预计归档时间之前。

可选的，所述装置还包括：

存储优化单元，用于在判定所述目标数据表在预计归档时间存在查询超时的情况下，按照预设规则，对所述目标数据表进行分布式存储，并修改所述目标数据表的查询路由。

可选的，所述装置还包括：

存储空间判断单元，用于判断所述目标数据表在预计归档时间的数据量是否超过最大数据量；若超过最大数据量，提示所述目标数据表在预计归档时间的存储空间不足；若未超过最大数据量，触发所述线性拟合单元。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种查询超时预测方法，通过对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线，依据该拟合曲线可以准确确定目标数据表在预计归档时间的数据量对应的预估查询时间，从而基于该预估查询时间判定目标数据表在预计归档时间是否存在查询超时，进而便于在判定目标数据表在预计归档时间存在查询超时的情况下，尽早调整归档时间或优化目标数据表的存储，避免出现由于目标数据表数据量过大导致的系统存储空间不足报错或出现查询超时报错，提高查询效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种查询超时预测方法的流程示意图；

图2为本发明实施例公开的另一种查询超时预测方法的流程示意图；

图3为本发明实施例公开的另一种查询超时预测方法的流程示意图；

图4为本发明实施例公开一种查询超时预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人经过研究发现：一些系统，如银行系统有一类数据表的数据量会不断增加，但是由于数据比较重要需要定期或不定期查询，不能频繁对数据进行归档处理，需要尽量晚的对数据进行归档，但又不能由于数据量过大造成查询超时或存储空间不足。因此，需要准确预测该数据表在预计归档时间是否存在查询超时。

在此基础上，本发明提供了一种查询超时预测方法及装置，准确预测该数据表在预计归档时间是否存在查询超时，进而便于在判定目标数据表在预计归档时间存在查询超时的情况下，尽早调整归档时间或优化目标数据表的存储，避免出现由于目标数据表数据量过大导致的系统存储空间不足报错或出现查询超时报错，提高查询效率。

具体的，请参阅图1，本实施例公开了一种查询超时预测方法，包括以下步骤：

S101：获取目标数据表在预计归档时间的数据量；

目标数据表为集中式存储，具体为比较重要需要定期或不定期查询，且不能频繁对数据进行归档处理的数据表。

预计归档时间可以为人为预估的，也可以为根据历史数据预测得到。

其中，获取目标数据表在预计归档时间的数据量，首先需要获取目标数据表的预计归档时间，然后根据历史数据预测目标数据表在预计归档时间的数据量。

获取目标数据表的预计归档时间的方式可以有多种，如获取人工输入的目标数据表的预计归档时间，该预计归档时间为专家根据经验预估的，也可以为计算机根据历史数据预测得到的。

根据历史数据预测目标数据表的预计归档时间也可以有多种，以下通过一个示例进行举例说明：

分析历史数据中目标数据表的归档规律，如分析历史数据中不同数据表的归档时间，借助机器学习模型预测目标数据表的归档规律，该机器学习模型通过历史数据训练得到，历史数据为预先收集的不同数据表的历史归档时间，在确定目标数据表的归档规律之后，根据目标数据表的归档规律，确定目标数据表的预计归档时间。

在确定目标数据表的预计归档时间之后，根据历史数据预测目标数据表在预计归档时间的数据量，其实现方式可以有多种，以下通过两个示例进行举例说明：

示例一

首先，本实施例假设目标数据表的数据量主要与时间相关，在此基础上对历史数据中目标数据表在不同时间的数据量进行线性拟合，得到表示数据量与时间之间的对应关系的数据量拟合曲线。

然后，根据该数据量拟合曲线，可以预测目标数据表在预计归档时间的数据量。

示例二

首先，获取预计归档时间的时间特征，该时间特征与目标数据表的数据量增长特征相关，可以根据目标数据表的数据量增长特征预先设置预计归档时间的时间特征。例如：若目标数据表在每个工作日比非工作日的数据量增长快，则预计归档时间的时间特征应该包括是否为工作日，若目标数据表在节假日或电商购物节的数据量增长较快，则预计归档时间的时间特征应该包括是否为节假日或电商购物节，需要说明的是，以上时间特征仅为举例，本发明并不以此为限。

将预计归档时间的时间特征输入预先构建的数据量预测模型中进行处理，得到目标数据表在预计归档时间的数据量，数据量预测模型是预先利用标注有数据量的训练样本对神经网络模型进行训练及验证后得到的，训练样本为目标数据表在不同时间特征下的数据量样本。

需要说明的是，以上两个示例仅为根据历史数据预测目标数据表在预计归档时间的数据量的可选实施方式，本发明并不以此为限。

S102：对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线；

具体的，本实施例在假设硬件及系统资源稳定的情况下，查询时间主要影响因素为查询数据量的基础上，对历史数据中不同查询数据量对应的查询时间进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线。

S103：依据查询时间拟合曲线，确定目标数据表在预计归档时间的数据量对应的预估查询时间；

依据查询时间拟合曲线中目标数据表的查询数据量与查询时间之间的对应关系，确定目标数据表在预计归档时间的数据量对应的预估查询时间，可以理解的是，该查询时间是预估的。

S104：基于预估查询时间判定目标数据表在预计归档时间是否存在查询超时。

具体的，通过比较预估查询时间与系统预先设定的最长查询时间，在预估查询时间大于系统预先设定的最长查询时间时，判定目标数据表在预计归档时间存在查询超时，反之，则判定目标数据表在预计归档时间不存在查询超时。

需要说明的是，若标数据表在预计归档时间不存在查询超时，则可以按照该预计归档时间对目标数据表进行归档操作。

可见，本实施例公开的一种查询超时预测方法，通过对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线，依据该拟合曲线可以准确确定目标数据表在预计归档时间的数据量对应的预估查询时间，从而基于该预估查询时间准确判定目标数据表在预计归档时间是否存在查询超时。

进一步，在判定目标数据表在预计归档时间存在查询超时的情况下，可以通过尽早调整归档时间或优化目标数据表的存储，避免出现由于目标数据表数据量过大导致的系统存储空间不足报错或出现查询超时报错，提高查询效率。

请参阅图2，本发明实施例公开了一种查询超时预测方法，具体包括以下步骤：

S201：获取目标数据表在预计归档时间的数据量；

S202：对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线；

S203：依据查询时间拟合曲线，确定目标数据表在预计归档时间的数据量对应的预估查询时间；

S204：基于预估查询时间判定目标数据表在预计归档时间是否存在查询超时；

S205：在判定目标数据表在预计归档时间存在查询超时的情况下，调整目标数据表的归档时间，使调整后的归档时间在预计归档时间之前。

其中，S201～S204的具体实现方式请参阅上述实施例中S101～S104，在此不再赘述。

具体的，可以按照预设步长调整目标数据表的归档时间，使调整后的归档时间在预计归档时间之前。

在调整目标数据表的归档时间之后，获取目标数据表在调整后的预计归档时间的数据量，然后依据查询时间拟合曲线，确定目标数据表在调整后的预计归档时间的数据量对应的调整后的预估查询时间，再基于调整后的预估查询时间判定目标数据表在调整后的预计归档时间是否存在查询超时，若不存在超时，则按照调整后的预计归档时间对目标数据表进行归档操作，若仍存在超时，则继续按照预设步长调整目标数据表的归档时间，直到使目标数据表在调整后的预计归档时间不存在查询超时为止。

请参阅图3，本发明实施例公开了一种查询超时预测方法，具体包括以下步骤：

S301：获取目标数据表在预计归档时间的数据量；

S302：对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线；

S303：依据查询时间拟合曲线，确定目标数据表在预计归档时间的数据量对应的预估查询时间；

S304：基于预估查询时间判定目标数据表在预计归档时间是否存在查询超时；

S305：在判定目标数据表在预计归档时间存在查询超时的情况下，按照预设规则，对目标数据表进行分布式存储，并修改目标数据表的查询路由。

其中，S301～S304的具体实现方式请参阅上述实施例中S101～S104，在此不再赘述。

对目标数据表进行分布式存储的预设规则为利用专家系统设定的，也可以为专家人工设定。

具体的，可以在查询内网其他分布式存储空间，将目标数据表分布式存储在这些存储空间内，保证目标数据表有足够的存储空间。

需要说明的是，由于目标数据表的存储方式改变，需要根据目标数据表的分布式存储方式，修改目标数据表的查询路由，使目标数据表存储方式修改对用户来说是无感的，用户根据修改后的查询路由正常访问目标数据表。

进一步，目标数据表在预计归档时间的数据量还可能超过最大数据量，造成目标数据表存储空间不足的问题。

在此基础上，本实施例在获取目标数据表在预计归档时间的数据量之后，判断目标数据表在预计归档时间的数据量是否超过最大数据量，若超过最大数据量，提示目标数据表在预计归档时间的存储空间不足，若未超过最大数据量，执行对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线这一步骤。

在提示目标数据表在预计归档时间的存储空间不足，也可以通过调整目标数据表的归档时间，使调整后的归档时间在预计归档时间之前，还可以按照预设规则，对目标数据表进行分布式存储，并修改目标数据表的查询路由，解决目标数据表在预计归档时间的存储空间不足的问题。

基于上述实施例公开的一种查询超时预测方法，本实施例对应公开了一种查询超时预测装置，请参阅图4，该装置包括：

数据量获取单元401，用于获取目标数据表在预计归档时间的数据量；

线性拟合单元402，用于对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线；

查询时间预测单元403，用于依据所述查询时间拟合曲线，确定所述目标数据表在预计归档时间的数据量对应的预估查询时间；

查询超时判定单元404，用于基于所述预估查询时间判定所述目标数据表在预计归档时间是否存在查询超时。

可选的，所述数据量获取单元401，包括：

可选的，所述归档时间获取子单元，具体用于：

分析历史数据中所述目标数据表的归档规律；

可选的，所述数据量预测子单元，具体用于：

获取预计归档时间的时间特征；

可选的，所述装置还包括：

本实施例公开的一种查询超时预测装置，通过对历史数据进行线性拟合，得到表示查询数据量与查询时间之间的对应关系的查询时间拟合曲线，依据该拟合曲线可以准确确定目标数据表在预计归档时间的数据量对应的预估查询时间，从而基于该预估查询时间判定目标数据表在预计归档时间是否存在查询超时，进而便于在判定目标数据表在预计归档时间存在查询超时的情况下，尽早调整归档时间或优化目标数据表的存储，避免出现由于目标数据表数据量过大导致的系统存储空间不足报错或出现查询超时报错，提高查询效率。

需要说明的是，本发明提供的一种查询超时预测方法及装置，可应用于分布式领域或金融领域。上述仅为示例，并不对本发明提供的一种查询超时预测方法及装置的应用领域进行限定。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

上述各个实施例之间可任意组合，对所公开的实施例的上述说明，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种查询超时预测方法，其特征在于，包括：

获取目标数据表在预计归档时间的数据量；

2.根据权利要求1所述的方法，其特征在于，所述获取目标数据表归档时的数据量，包括：

获取所述目标数据表的预计归档时间；

3.根据权利要求2所述的方法，其特征在于，获取所述目标数据表的预计归档时间，包括：

分析历史数据中所述目标数据表的归档规律；

4.根据权利要求2所述的方法，其特征在于，所述根据历史数据预测所述目标数据表在预计归档时间的数据量，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据历史数据预测所述目标数据表在预计归档时间的数据量，包括：

获取预计归档时间的时间特征；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，在获取目标数据表在预计归档时间的数据量之后，所述方法还包括：

9.一种查询超时预测装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述数据量获取单元，包括：