CN115391355B - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115391355B CN115391355B CN202211315468.0A CN202211315468A CN115391355B CN 115391355 B CN115391355 B CN 115391355B CN 202211315468 A CN202211315468 A CN 202211315468A CN 115391355 B CN115391355 B CN 115391355B
- Authority
- CN
- China
- Prior art keywords
- data
- stored
- target
- preset
- fitting model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000013500 data storage Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000013144 data compression Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法、装置、设备及存储介质,数据处理方法包括:获取待存储数据;其中,待存储数据为当前待存储的时序数据,根据待存储数据获取预设的数据标识信息,若数据标识信息表征为真,将待存储数据存入预设缓存池,得到目标缓存池,获取目标缓存池的数据量,得到缓存数据量,若缓存数据量大于预设缓存阈值,获取目标缓存池缓存的时序数据,得到目标时序数据,根据目标时序数据进行拟合模型构建,得到数据拟合模型;其中,数据拟合模型表征时序数据随时间区间变化,根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。本发明能够减少数据存储的占用空间,进而降低数据写入成本。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种数据处理方法、装置、设备及存储介质。
背景技术
伴随着物联网、大数据和人工智能技术的发展,监控数据的规模呈现一个爆发式的增长态势,传统监控数据压缩后存储,且存储的方法主要采用数据库或内存存储,占用空间与总数据量线性相关,导致写入成本高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种数据处理方法,能够减少数据存储的占用空间,进而降低数据写入成本。
本发明还提出一种数据处理装置。
本发明还提出一种数据处理设备。
本发明还提出一种计算机可读存储介质。
第一方面,本发明的一个实施例提供了数据处理方法,包括:
获取待存储数据;其中,所述待存储数据为当前待存储的时序数据;
根据所述待存储数据获取预设的数据标识信息;
若所述数据标识信息表征为真,将所述待存储数据存入预设缓存池,得到目标缓存池;
获取所述目标缓存池的数据量,得到缓存数据量;
若所述缓存数据量大于预设缓存阈值,获取所述目标缓存池缓存的时序数据,得到目标时序数据;
根据所述目标时序数据进行拟合模型构建,得到数据拟合模型;其中,所述数据拟合模型表征时序数据随时间区间变化;
根据预设的B+树存储规则将所述数据拟合模型和所述时间区间存储至预设存储数据库。
本发明实施例的数据处理方法至少具有如下有益效果:获取当前待存储的时序数据,得到待存储数据,当获取到待存储数据后,再获取预设的数据标识信息,若数据标识信息表征为真,将待存储数据存入预设缓存池后,得到目标缓存池,获取目标缓存池中时序数据的数据量,得到缓存数据量,将缓存数据量和预设缓存阈值进行比较,若缓存数据量大于预设缓存阈值,获取目标缓存池缓存的所有时序数据,得到目标时序数据,根据目标时序数据进行拟合模型构建,得到表征时序数据随时间区间变化的数据拟合模型,并根据目标时序数据的时间参数构建时间区间,根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。因此,根据若干个待存储的时序数据构建数据拟合模型,根据预设的B+树存储规则存储数据拟合模型和时序数据的时间区间,通过存储时间区间和数据拟合模型以存储数据,能够减少数据存储的占用空间,进而降低数据写入成本。
根据本发明的另一些实施例的数据处理方法,所述根据所述目标时序数据进行拟合模型构建,得到数据拟合模型,包括:
获取所述目标时序数据的值,得到目标数据值;获取所述目标时序数据的时间值,得到目标时间值;
根据所述目标数据值和所述目标时间值进行拟合模型构建,得到所述数据拟合模型。
根据本发明的另一些实施例的数据处理方法,所述根据预设的B+树存储规则将所述数据拟合模型和所述时间区间存储至预设存储数据库,包括:
根据所述数据拟合模型和所述时间区间进行索引值设置,得到数据索引值;
将所述数据索引值和所述数据拟合模型进行索引关系构建,得到数据索引关系;
根据所述数据索引关系将所述数据拟合模型存储至所述预设存储数据库。
根据本发明的另一些实施例的数据处理方法,所述方法还包括:
据查询请求从所述预设存储数据库提取目标数据,具体包括:
获取所述查询请求;其中,所述查询请求包括:查询时间信息;
根据所述查询时间信息从所述数据索引值筛选出目标索引值;
根据所述目标索引值从所述数据索引关系中获取目标拟合模型;
根据所述查询时间信息和所述目标拟合模型进行估计计算,得到目标数据。
根据本发明的另一些实施例的数据处理方法,所述方法还包括:
若所述数据标识信息表征为假,获取所述待存储数据的时间值,得到数据时间值;
根据所述数据时间值和当前的所述数据拟合模型进行数据计算,得到参考数据;
将所述参考数据和所述待存储数据进行误差计算,得到数据误差值;
若所述数据误差值小于预设误差阈值,根据所述待存储数据对当前的所述数据拟合模型的时间区间进行更新。
根据本发明的另一些实施例的数据处理方法,所述方法还包括:
若所述数据误差值大于所述预设误差阈值,将所述数据标识信息设置为真;
将所述预设缓存池清空后,将所述待存储数据存入所述预设缓存池。
根据本发明的另一些实施例的数据处理方法,所述方法还包括:
若所述缓存数据量小于预设缓存阈值,获取下一时刻的时序数据,得到下一待存储数据,将所述下一待存储数据缓存至预设缓存池。
第二方面,本发明的一个实施例提供了数据处理装置,包括:
待存储数据获取模块,用于获取待存储数据;其中,所述待存储数据为当前待存储的时序数据;
数据标识获取模块,用于根据所述待存储数据获取预设的数据标识信息;
数据缓存模块,若所述数据标识信息表征为真,用于将所述待存储数据存入预设缓存池,得到目标缓存池;
数据缓存量获取模块,用于获取所述目标缓存池的数据量,得到缓存数据量;
时序数据获取模块,若所述缓存数据量大于预设缓存阈值,用于获取所述目标缓存池缓存的时序数据,得到目标时序数据;
拟合模型构建模块,用于根据所述目标时序数据进行拟合模型构建,得到数据拟合模型;其中,所述数据拟合模型表征时序数据随时间区间变化;
数据存储模块,用于根据预设的B+树存储规则将所述数据拟合模型和所述时间区间存储至预设存储数据库。
本发明实施例的数据处理装置至少具有如下有益效果:待存储数据获取模块获取当前待存储的时序数据,得到待存储数据,当获取到待存储数据后,数据标识获取模块获取预设的数据标识信息,若数据标识信息表征为真,数据缓存模块将待存储数据存入预设缓存池后,得到目标缓存池,数据缓存量获取模块获取目标缓存池中时序数据的数据量,得到缓存数据量,时序数据获取模块将缓存数据量和预设缓存阈值进行比较,若缓存数据量大于预设缓存阈值,获取目标缓存池缓存的所有时序数据,得到目标时序数据,拟合模型构建模块根据目标时序数据进行拟合模型构建,得到表征时序数据随时间区间变化的数据拟合模型,并根据目标时序数据的时间参数构建时间区间,数据存储模块根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。因此,根据若干个待存储的时序数据构建数据拟合模型,根据预设的B+树存储规则存储数据拟合模型和时序数据的时间区间,通过存储时间区间和数据拟合模型以存储数据,能够减少数据存储的占用空间,进而降低数据写入成本。
第三方面,本发明的一个实施例提供了数据处理设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的数据处理方法。
第四方面,本发明的一个实施例提供了计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的数据处理方法。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明实施例中数据处理方法的一具体实施例流程示意图;
图2是图1中步骤S106的一具体实施例流程示意图;
图3是图1中步骤S107的一具体实施例流程示意图;
图4是本发明实施例中数据处理方法的另一具体实施例流程示意图;
图5是本发明实施例中数据处理方法的另一具体实施例流程示意图;
图6是本发明实施例中数据处理方法的另一具体实施例流程示意图;
图7是本发明实施例中数据处理方法的另一具体实施例流程示意图;
图8是本发明实施例中数据处理装置的一具体实施例模块框图;
图9是本发明实施例中数据处理方法的另一具体实施例流程示意图;
图10是本发明实施例中B+树存储规则的一具体实施例示意图。
附图标记说明:
待存储数据获取模块801、数据标识获取模块802、数据缓存模块803、数据缓存量获取模块804、时序数据获取模块805、拟合模型构建模块806、数据存储模块807。
具体实施方式
以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。
在为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
在本发明实施例的描述中,如果涉及到“若干”,其含义是一个以上,如果涉及到“多个”,其含义是两个以上,如果涉及到“大于”、“小于”、“超过”,均应理解为不包括本数,如果涉及到“以上”、“以下”、“以内”,均应理解为包括本数。如果涉及到“第一”、“第二”,应当理解为用于区分技术特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
数据监控是及时、有效的反馈出数据异常的一种手段,是数据库系统至关重要的一部分。伴随着物联网、大数据和人工智能技术的发展,数据库规模日益复杂庞大,使得监控数据的规模呈现一个爆发式的增长态势。如果简单将所有的监控数据都保存下来,将在短时间内占用大量的资源,带来巨大的成本负担。考虑到在实际应用场景中,用户并不关心较小范围内的变化数据,而是关注某些剧烈变化的拐点数据,并且监控数据具有慢变的特性,这就确定了监控数据压缩完全可以在损失一定精度的情况下来降低对资源的需求,属于有损数据压缩范畴。并且,监控时序数据的存储性能要求高,高效率压缩监控数据可降低对内存的占用,尽量减少对核心业务的干扰,具有很强的应用价值。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种数据处理方法,能够减少数据存储的占用空间,进而降低数据写入成本。
本发明的数据处理方法应用于数据处理系统,数据处理系统包括:数据写入器、数据存储器和数据读取器,数据写入器进行数据追加,以对观测到的数据进行数据压缩,并将压缩后的数据传输至数据存储器,数据存储器存储数据对应的拟合模型和模型的区间值,其中,区间值对应拟合模型进行索引值存储,以实现对数据的存储,数据读取器根据时间戳和对应的索引值从数据存储器中找到对应的拟合模型,并根据拟合模型和时间戳进行数据估计,得到该时间戳对应的数据估计值。
请参照图1,图1示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,其具体包括但不限于包括步骤S101至步骤S107。
步骤S101,获取待存储数据;其中,待存储数据为当前待存储的时序数据;
步骤S102,根据待存储数据获取预设的数据标识信息;
步骤S103,若数据标识信息表征为真,将待存储数据存入预设缓存池得到目标缓存池;
步骤S104,获取目标缓存池的数据量,得到缓存数据量;
步骤S105,若缓存数据量大于预设缓存阈值,获取目标缓存池缓存的时序数据,得到目标时序数据;
步骤S106,根据目标时序数据进行拟合模型构建,得到数据拟合模型;其中,数据拟合模型表征时序数据随时间区间变化;
步骤S107,根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。
通过执行步骤S101至步骤S107,获取当前待存储的时序数据,得到待存储数据,再获取预设的数据标识信息,若数据标识信息表征为真,将待存储数据存入预设缓存池后,得到目标缓存池,获取目标缓存池中时序数据的数据量,得到缓存数据量,将缓存数据量和预设缓存阈值进行比较,若缓存数据量大于预设缓存阈值,获取目标缓存池缓存的所有时序数据,得到目标时序数据,根据目标时序数据进行拟合模型构建,得到表征时序数据随时间区间变化的数据拟合模型,并根据目标时序数据的时间参数构建时间区间,根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。因此,根据若干个待存储的时序数据构建数据拟合模型,并根据预设的B+树存储规则存储数据拟合模型和时序数据的时间区间,通过存储时间区间和数据拟合模型以存储数据,能够减少数据存储的占用空间,进而降低数据写入成本。
在一些实施例的步骤S102中,数据标识信息初始设置为真。
在一些实施例的步骤S103中,首先判断是否已经构建有缓存池,若未构建有缓存池,则根据预设的存储区域构建一个缓存池。其中,缓存池能缓存的数据数量为预设缓存阈值。
在一些实施例的步骤S105中,目标时序数据表征目标缓存池缓存的所有时序数据。预设缓存阈值可以根据实际情况选取,在本申请不对预设缓存阈值进行具体限定。
请参照图2,图2示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,步骤S106包括但不限于包括步骤S201至步骤S202。
步骤S201,获取目标时序数据的值,得到目标数据值;获取目标时序数据的时间值,得到目标时间值;
步骤S202,根据目标数据值和目标时间值进行拟合模型构建,得到数据拟合模型。
通过执行步骤S201至步骤S202,获取目标缓存池缓存的所有时序数据的数据值,得到目标数据值,并获取目标缓存池缓存的所有时序数据的时间值,得到目标时间值,根据目标数据值和目标时间值进行拟合函数构建,以构建拟合模型,得到数据拟合模型。根据时序数据的数据值和时间值进行拟合函数构建,以得到数据拟合模型,能够通过存储数据拟合模型和数据拟合模型的时间区间存储时序数据,减少数据存储的占用空间,进而降低数据写入成本。
在一些实施例的步骤S201中,目标数据值表征目标缓存池缓存的所有时序数据的所有数据值,目标时间值表征目标缓存池缓存的所有时序数据的所有时间值。
在一些实施例的步骤S202中,本实施例根据最小二乘法对目标数据值和目标时间值进行拟合函数构建,且在其他实施例可以采用相切法对目标数据值和目标时间值进行拟合函数构建,在此对于目标数据值和目标时间值进行拟合函数构建所采用的算法不做限制。
请参照图3,图3示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,步骤S107包括但不限于包括步骤S301至步骤S303。
步骤S301,根据数据拟合模型和时间区间进行索引值设置,得到数据索引值;
步骤S302,将数据索引值和数据拟合模型进行索引关系构建,得到数据索引关系;
步骤S303,根据数据索引关系将数据拟合模型存储至预设存储数据库。
通过执行步骤S301至步骤S303,获取时间区间的上限值,并将时间区间的上限值作为用于存储数据拟合模型对应的索引值,得到数据索引值,将数据索引值和数据拟合模型构建索引关系,得到数据索引关系,并根据数据索引关系将数据拟合模型存储至预设存储数据库。通过将时间区间的上限值作为索引值与数据拟合模型构建索引关系,得到数据索引关系,根据数据索引关系将数据拟合模型存储至数据库,能够通过存储数据拟合模型和时间区间的上限值,以存储待存储数据,减少数据存储的占用空间,进而降低数据写入成本。
参照图10,图10示出了本发明实施例中B+树存储规则的一具体实施例示意图。在一些实施例中,预设存储数据库是根据B+树存储规则构建得到的,根据B+树的构建算法将各个数据拟合模型的时间区间的上限值由下至上进行存储,根据前一数据拟合模型的时间区间的上限值和当前数据拟合模型的时间区间的上限值得到当前数据拟合模型的时间区间,并根据当前数据拟合模型的时间区间存储当前数据拟合模型。
将数据拟合模型和对应的时间区间进行结构化存储。考虑到需进行大量的数据拟合模型写入、更新和读取等操作,为拥有较稳定的时间复杂度,采用B+树对数据拟合模型和对应的时间区间进行高效索引。B+树实例为图10中数据拟合模型表中的模型及其对应时间区间建立了索引,其中,B+树采用时间区间的上限值作为索引值,叶子节点存储的是指向存储数据拟合模型和时间区间的上限值的内存块的指针。其中,结构化存储是把树状文件系统的原理应用到单个的文件中,使得单个文件也能像文件系统一样包含"子目录","子目录"还可以包含更深层次的"子目录",各个"目录"可以含多个文件,把原来需要多个文件存储的内容按树状结构和层次保存到一个文件中。
请参照图4,图4示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,数据处理方法还包括但不限于包括步骤S401至步骤S404。
步骤S401,获取查询请求;其中,查询请求包括:查询时间信息;
步骤S402,根据查询时间信息从数据索引值筛选出目标索引值;
步骤S403,根据目标索引值从数据索引关系中获取目标拟合模型;
步骤S404,根据查询时间信息和目标拟合模型进行估计计算,得到目标数据。
通过执行步骤S401至步骤S404,获取用户输入的查询请求,并获取查询请求包括的查询时间信息,根据查询时间信息在数据索引值中进行筛选,以筛选出用户所需的目标索引值,根据目标索引值从数据索引关系中获取对应的目标拟合模型,将查询时间信息代入目标拟合模型进行估计计算,得到目标数据。通过将对应的查询时间信息输入,根据查询时间信息筛选对应的数据索引值得到目标索引值,根据目标索引值获取对应的数据拟合模型,得到目标拟合模型,将查询时间信息代入目标拟合模型进行估计得到用户需要查找的目标数据,能够准确地查找所需的数据。
需要说明的是,若用户需要读取某一时间戳的数据,用户将该时间戳输入,根据时间戳找到对应的数据拟合模型并计算当前时间戳的数据估计值,其中,数据读取过程实则为搜索索引的过程。参照图10进行举例,假设用户需要时间戳5的数据,对B+树进行搜索,其中,搜索过程起始于根节点,终止于叶子节点。由于5小于根节点中的键值30,需要进一步搜索键值30对应的左叶子节点(包括键值3、键值20、键值30的叶子节点),搜索出第一个大于等于5的键值(即键值20),返回键值20指向的数据拟合模型(即f2(t)),得到时间戳5对应的数据拟合模型,将时间戳5代入到数据拟合模型中进行估计计算,得到时间戳5对应的估计观测值f2(5)。
请参照图5,图5示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,在步骤S107之后,数据处理方法还包括但不限于包括步骤S501至步骤S504。
步骤S501,若数据标识信息表征为假,获取待存储数据的时间值,得到数据时间值;
步骤S502,根据数据时间值和当前的数据拟合模型进行数据计算,得到参考数据;
步骤S503,将参考数据和待存储数据进行误差计算,得到数据误差值;
步骤S504,若数据误差值小于预设误差阈值,根据待存储数据对当前的数据拟合模型的时间区间进行更新。
通过执行步骤S501至步骤S504,若数据标识信息表征为假,获取当前的待存储数据对应的时间值,得到数据时间值,将数据时间值代入当前的数据拟合模型进行数据计算,以得到参考数据,将参考数据和待存储数据进行差值计算,以计算参考数据和待存储数据之间的误差值,得到数据误差值。将数据误差值与预设误差阈值进行比较,若数据误差值小于预设误差阈值,根据待存储数据的数据时间值更新当前的数据拟合模型的时间区间。通过对待存储数据的数据时间值代入数据拟合模型进行数据计算,得到参考数据,将参考数据与待存储数据进行差值计算,并将参考数据与待存储数据的误差值与预设误差阈值进行比较,若误差值小于预设误差阈值,则表示待存储数据能够被当前的数据拟合模型拟合,并更新当前的数据拟合模型的时间区间,能够将后续的部分待存储数据根据当前的数据拟合模型进行存储,以减少数据存储的占用空间,进而降低数据写入成本。
在一些实施例的步骤S501中,时间值可以表征为获取到当前的待存储数据时的时间戳。
在一些实施例的步骤S502中,参考数据为根据当前的数据拟合模型和数据时间值进行数据估计后得到的数据。
在一些实施例的步骤S504中,预设误差阈值可以根据实际情况选取,在本申请不对预设误差阈值进行具体限定。
请参照图6,图6示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,数据处理方法还包括但不限于包括步骤S601至步骤S602。
步骤S601,若数据误差值大于预设误差阈值,将数据标识信息设置为真;
步骤S602,将预设缓存池清空后,将待存储数据存入预设缓存池。
通过执行步骤S601至步骤S602,若数据误差值大于预设误差阈值,将数据标识信息设置为真,并将预设缓存池缓存的时序数据清空,再将当前的待存储数据存入预设缓存池,后续执行步骤S104至步骤S107。根据数据误差值大于预设误差阈值,得到当前的待存储数据无法被当前的数据拟合模型拟合,将当前的待存储数据和后续的待存储数据缓存至预设缓存池进行重新拟合,能够提高数据拟合模型对待存储数据拟合的准确性。
请参照图7,图7示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,数据处理方法还包括但不限于包括步骤S701。
步骤S701,若缓存数据量小于预设缓存阈值,获取下一时刻的时序数据,得到下一待存储数据,将下一待存储数据缓存至预设缓存池。
在一些实施例的步骤S701中,若缓存数据量小于预设缓存阈值,即预设缓存池没有缓存至预设缓存阈值的待存储数据,将下一待存储数据缓存至预设缓存池,直至预设缓存池缓存至预设缓存阈值的待存储数据,然后再执行步骤S105至步骤S107。通过将待存储数据缓存至预设缓存阈值个数,再对缓存的待存储数据进行拟合,能够提高数据拟合模型对待存储数据拟合的准确性。
请参照图9,图9示出了本发明实施例中数据处理方法的流程示意图。在一些实施例中,图9中的拟合函数为本申请的数据拟合模型,拟合函数区间为本申请的时间区间,缓冲池为本申请的预设缓存池,R为本申请的数据标识信息,C为本申请的预设缓存阈值,拟合函数评估差异值Δ为本申请的数据误差值,T为本申请的预设误差阈值,数据处理方法可以理解为:
获取一个待存储的时序数据,得到待存储数据,若当前的数据标识信息表征真,则说明需要重新计算拟合函数,将当前的待存储数据存储至预设缓存池,对预设缓存池缓存的数据量进行判断,若预设缓存池缓存的数据量小于预设缓存阈值,则获取下一时刻的待存储数据缓存至预设缓存池,直至预设缓存池缓存的数据量等于预设缓存阈值,根据预设缓存池缓存的所有时序数据进行拟合模型构建,以得到数据拟合模型和数据拟合模型的时间区间,将数据拟合模型和时间区间存储至预设存储区,将数据标识信息设置为假,并清空预设缓存池。获取新的待存储数据,并且当前的数据标识信息表征假,将当前的待存储数据对应的时间戳代入数据拟合模型进行数据计算,得到参考数据,将参考数据和待存储数据进行误差计算,以得到数据误差值,将数据误差值与预设误差阈值进行比较,若数据误差值小于预设误差阈值,则当前的待存储数据能够被当前的数据拟合模型进行拟合,根据当前的待存储数据的时间戳更新已经存储的时间区间。若数据误差值大于预设误差阈值,则当前的待存储数据不能够被当前的数据拟合模型进行拟合,将数据标识信息设置为真,并当前的待存储数据缓存至预设缓存池以进行重新拟合。根据若干个待存储的时序数据构建数据拟合模型,根据预设的B+树存储规则存储数据拟合模型和时序数据的时间区间,通过存储时间区间和数据拟合模型以存储数据,能够减少数据存储的占用空间,进而降低数据写入成本。
需要说明的是,相比于传统的基于字典的压缩技术,本申请采用拟合的方式对数据进行压缩,对某一范围内的数据点,只需存储对应的拟合函数及时间区间。因而,可避免随着数据的规模的增大,数据保存空间持续线性增长。相比于基于线性拟合的压缩技术,本申请不限制拟合函数的维度,因而对数据的拟合程度更高且对锯齿点的处理更加灵活。在数据写入中,通过设定拟合函数的维度以及数据缓存池的大小,可对监控数据进行更高维度的拟合,从而使得对锯齿点的处理也更加灵活合理。相比于基于基函数的数据压缩技术,本申请更加轻量高效,对高速时序数据可进行快速读取。在基于基函数的数据压缩技术中,需要进行大量的矩阵计算,并且对追加进来的新数据需要额外进行一次参数计算,使得其方法结构复杂、计算成本较高。相比较下,本申请对追加数据仅需一次误差计算,计算过程更为方便快捷。此外,本发明还设计了高效的数据存储结构,对高速时序数据可进行快速存取。
另外,本申请实施例还公开了数据处理装置,请参照图8,图8是本发明的一个实施例公开了数据处理装置的模块框图。且,可以实现上述数据处理方法,数据处理装置包括:待存储数据获取模块801、数据标识获取模块802、数据缓存模块803、数据缓存量获取模块804、时序数据获取模块805、拟合模型构建模块806和数据存储模块807。待存储数据获取模块801、数据标识获取模块802、数据缓存模块803、数据缓存量获取模块804、时序数据获取模块805、拟合模型构建模块806和数据存储模块807均为通信连接。
待存储数据获取模块801获取待存储数据;其中,待存储数据为当前待存储的时序数据。数据标识获取模块802根据待存储数据获取预设的数据标识信息。若数据标识信息表征为真,数据缓存模块803将待存储数据存入预设缓存池,得到目标缓存池。数据缓存量获取模块804获取目标缓存池的数据量,得到缓存数据量。若缓存数据量大于预设缓存阈值,时序数据获取模块805获取目标缓存池缓存的时序数据,得到目标时序数据。拟合模型构建模块806根据目标时序数据进行拟合模型构建,得到数据拟合模型;其中,数据拟合模型表征时序数据随时间区间变化。数据存储模块807根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。
待存储数据获取模块801获取当前待存储的时序数据,得到待存储数据,当获取到待存储数据后,数据标识获取模块802获取预设的数据标识信息,若数据标识信息表征为真,数据缓存模块803将待存储数据存入预设缓存池后,得到目标缓存池,数据缓存量获取模块804获取目标缓存池中时序数据的数据量,得到缓存数据量,时序数据获取模块805将缓存数据量和预设缓存阈值进行比较,若缓存数据量大于预设缓存阈值,获取目标缓存池缓存的所有时序数据,得到目标时序数据,拟合模型构建模块806根据目标时序数据进行拟合模型构建,得到表征时序数据随时间区间变化的数据拟合模型,并根据目标时序数据的时间参数构建时间区间,数据存储模块807根据预设的B+树存储规则将数据拟合模型和时间区间存储至预设存储数据库。根据若干个待存储的时序数据构建数据拟合模型,根据预设的B+树存储规则存储数据拟合模型和时序数据的时间区间,通过存储时间区间和数据拟合模型以存储数据,能够减少数据存储的占用空间,进而降低数据写入成本。
其中,本实施例的数据处理装置的操作过程具体参照如上描述图1、图2、图3、图4、图5、图6和图7中的数据处理方法步骤S101至步骤S107、步骤S201和步骤S202、步骤S301至步骤S303、步骤S401至步骤S404、步骤S501至步骤S504、步骤S601和步骤S602和步骤S701,此处不再赘述。
本发明的另一个实施例公开了一种数据处理设备,包括:至少一个处理器,以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如图1中的控制方法步骤S101至步骤S107、图2中的控制方法步骤S201和步骤S202、图3中的控制方法步骤S301至步骤S304、图4中的控制方法步骤S401至步骤S404、图5中的控制方法步骤S501至步骤S504、图6中的控制方法步骤S601和步骤S602以及图7中的控制方法步骤S701的数据处理方法。
本发明的另一个实施例公开了一种存储介质,存储介质包括:存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行图1中的控制方法步骤S101至步骤S107、图2中的控制方法步骤S201和步骤S202、图3中的控制方法步骤S301至步骤S304、图4中的控制方法步骤S401至步骤S404、图5中的控制方法步骤S501至步骤S504、图6中的控制方法步骤S601和步骤S602以及图7中的控制方法步骤S701的数据处理方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待存储数据;其中,所述待存储数据为当前待存储的时序数据;
根据所述待存储数据获取预设的数据标识信息;
若所述数据标识信息表征为真,将所述待存储数据存入预设缓存池,得到目标缓存池;
获取所述目标缓存池的数据量,得到缓存数据量;
若所述缓存数据量大于预设缓存阈值,获取所述目标缓存池缓存的时序数据,得到目标时序数据;
根据所述目标时序数据进行拟合模型构建,得到数据拟合模型;其中,所述数据拟合模型表征时序数据随时间区间变化;
根据预设的B+树存储规则将所述数据拟合模型和所述时间区间存储至预设存储数据库。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述目标时序数据进行拟合模型构建,得到数据拟合模型,包括:
获取所述目标时序数据的值,得到目标数据值;获取所述目标时序数据的时间值,得到目标时间值;
根据所述目标数据值和所述目标时间值进行拟合模型构建,得到所述数据拟合模型。
3.根据权利要求1所述的数据处理方法,其特征在于,所述根据预设的B+树存储规则将所述数据拟合模型和所述时间区间存储至预设存储数据库,包括:
根据所述数据拟合模型和所述时间区间进行索引值设置,得到数据索引值;
将所述数据索引值和所述数据拟合模型进行索引关系构建,得到数据索引关系;
根据所述数据索引关系将所述数据拟合模型存储至所述预设存储数据库。
4.根据权利要求3所述的数据处理方法,其特征在于,所述方法还包括:
据查询请求从所述预设存储数据库提取目标数据,具体包括:
获取所述查询请求;其中,所述查询请求包括:查询时间信息;
根据所述查询时间信息从所述数据索引值筛选出目标索引值;
根据所述目标索引值从所述数据索引关系中获取目标拟合模型;
根据所述查询时间信息和所述目标拟合模型进行估计计算,得到目标数据。
5.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
若所述数据标识信息表征为假,获取所述待存储数据的时间值,得到数据时间值;
根据所述数据时间值和当前的所述数据拟合模型进行数据计算,得到参考数据;
将所述参考数据和所述待存储数据进行误差计算,得到数据误差值;
若所述数据误差值小于预设误差阈值,根据所述待存储数据对当前的所述数据拟合模型的时间区间进行更新。
6.根据权利要求5所述的数据处理方法,其特征在于,所述方法还包括:
若所述数据误差值大于所述预设误差阈值,将所述数据标识信息设置为真;
将所述预设缓存池清空后,将所述待存储数据存入所述预设缓存池。
7.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
若所述缓存数据量小于预设缓存阈值,获取下一时刻的时序数据,得到下一待存储数据,将所述下一待存储数据缓存至预设缓存池。
8.一种数据处理装置,其特征在于,包括:
待存储数据获取模块,用于获取待存储数据;其中,所述待存储数据为当前待存储的时序数据;
数据标识获取模块,用于根据所述待存储数据获取预设的数据标识信息;
数据缓存模块,若所述数据标识信息表征为真,用于将所述待存储数据存入预设缓存池,得到目标缓存池;
数据缓存量获取模块,用于获取所述目标缓存池的数据量,得到缓存数据量;
时序数据获取模块,若所述缓存数据量大于预设缓存阈值,用于获取所述目标缓存池缓存的时序数据,得到目标时序数据;
拟合模型构建模块,用于根据所述目标时序数据进行拟合模型构建,得到数据拟合模型;其中,所述数据拟合模型表征时序数据随时间区间变化;
数据存储模块,用于根据预设的B+树存储规则将所述数据拟合模型和所述时间区间存储至预设存储数据库。
9.一种数据处理设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211315468.0A CN115391355B (zh) | 2022-10-26 | 2022-10-26 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211315468.0A CN115391355B (zh) | 2022-10-26 | 2022-10-26 | 数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115391355A CN115391355A (zh) | 2022-11-25 |
CN115391355B true CN115391355B (zh) | 2023-01-17 |
Family
ID=84128616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211315468.0A Active CN115391355B (zh) | 2022-10-26 | 2022-10-26 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115391355B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738907B (zh) * | 2023-05-18 | 2024-09-17 | 北京华大九天科技股份有限公司 | 时序信息的处理方法及装置、计算装置和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102611454A (zh) * | 2012-01-29 | 2012-07-25 | 上海锅炉厂有限公司 | 一种实时历史数据动态无损压缩方法 |
CN109871362A (zh) * | 2019-02-13 | 2019-06-11 | 北京航空航天大学 | 一种面向流式时序数据的数据压缩方法 |
CN111309720A (zh) * | 2018-12-11 | 2020-06-19 | 北京京东尚科信息技术有限公司 | 时序数据的存储、读取方法、装置、电子设备及存储介质 |
CN113010113A (zh) * | 2021-03-17 | 2021-06-22 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置及设备 |
CN113296698A (zh) * | 2021-03-29 | 2021-08-24 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置及设备 |
CN113515545A (zh) * | 2021-06-30 | 2021-10-19 | 北京百度网讯科技有限公司 | 数据查询方法、装置、系统、电子设备以及存储介质 |
WO2021258360A1 (zh) * | 2020-06-24 | 2021-12-30 | 智协慧同(北京)科技有限公司 | 一种车载数据存储方法及系统 |
CN114911830A (zh) * | 2022-05-12 | 2022-08-16 | 平安科技(深圳)有限公司 | 基于时序数据库的索引缓存方法、装置、设备及存储介质 |
-
2022
- 2022-10-26 CN CN202211315468.0A patent/CN115391355B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102611454A (zh) * | 2012-01-29 | 2012-07-25 | 上海锅炉厂有限公司 | 一种实时历史数据动态无损压缩方法 |
CN111309720A (zh) * | 2018-12-11 | 2020-06-19 | 北京京东尚科信息技术有限公司 | 时序数据的存储、读取方法、装置、电子设备及存储介质 |
CN109871362A (zh) * | 2019-02-13 | 2019-06-11 | 北京航空航天大学 | 一种面向流式时序数据的数据压缩方法 |
WO2021258360A1 (zh) * | 2020-06-24 | 2021-12-30 | 智协慧同(北京)科技有限公司 | 一种车载数据存储方法及系统 |
CN113010113A (zh) * | 2021-03-17 | 2021-06-22 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置及设备 |
CN113296698A (zh) * | 2021-03-29 | 2021-08-24 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置及设备 |
CN113515545A (zh) * | 2021-06-30 | 2021-10-19 | 北京百度网讯科技有限公司 | 数据查询方法、装置、系统、电子设备以及存储介质 |
CN114911830A (zh) * | 2022-05-12 | 2022-08-16 | 平安科技(深圳)有限公司 | 基于时序数据库的索引缓存方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Pronto: Easy and Fast Persistence for Volatile Data Structures;Amirsaman Memaripour等;《ASPLOS "20: Proceedings of the Twenty-Fifth International Conference on Architectural Support for Programming Languages and Operating Systems》;20200313;全文 * |
智能电网大数据流式处理方法与状态监测异常检测;王德文等;《电力系统自动化》;20160725(第14期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115391355A (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165215B (zh) | 一种云环境下时空索引的构建方法、装置及电子设备 | |
US9047330B2 (en) | Index compression in databases | |
CN107491523B (zh) | 存储数据对象的方法及装置 | |
US11392644B2 (en) | Optimized navigable key-value store | |
US9043660B2 (en) | Data store capable of efficient storing of keys | |
KR20200053512A (ko) | Kvs 트리 데이터베이스 | |
CN111198856B (zh) | 文件管理方法、装置、计算机设备和存储介质 | |
CN110196847A (zh) | 数据处理方法和装置、存储介质及电子装置 | |
CN113901279B (zh) | 一种图数据库的检索方法和装置 | |
CN110704439B (zh) | 数据存储方法及装置 | |
CN115391355B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111552693A (zh) | 一种标签布谷鸟过滤器 | |
CN107229620A (zh) | 一种视频数据的存储方法及装置 | |
CN108874930A (zh) | 文件属性信息统计方法、装置、系统、设备及存储介质 | |
CN112597345B (zh) | 一种实验室数据自动采集与匹配方法 | |
WO2023155849A1 (zh) | 基于时间衰减的样本删除方法及其装置、存储介质 | |
CN113867627A (zh) | 一种存储系统性能优化方法及系统 | |
CN117633105A (zh) | 基于时间分区索引的时序数据存储管理方法及系统 | |
CN114116612B (zh) | 一种基于b+树索引归档文件的存取方法 | |
CN113468080B (zh) | 一种全闪元数据的缓存方法、系统及相关装置 | |
CN114817651A (zh) | 数据存储方法、数据查询方法、装置和设备 | |
CN113348450B (zh) | 一种车载数据存储方法及系统 | |
CN114328601A (zh) | 数据降采样和数据查询方法、系统及存储介质 | |
WO2011137684A1 (zh) | 基于嵌入式系统的信息记录的检索方法和装置 | |
CN116756253B (zh) | 关系型数据库的数据存储、查询方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |