CN112286969B - 低频数据连续性确定方法和装置 - Google Patents
低频数据连续性确定方法和装置 Download PDFInfo
- Publication number
- CN112286969B CN112286969B CN202011182056.5A CN202011182056A CN112286969B CN 112286969 B CN112286969 B CN 112286969B CN 202011182056 A CN202011182056 A CN 202011182056A CN 112286969 B CN112286969 B CN 112286969B
- Authority
- CN
- China
- Prior art keywords
- low frequency
- data
- frequency data
- target
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 31
- 238000012163 sequencing technique Methods 0.000 claims abstract description 13
- 238000013480 data collection Methods 0.000 claims abstract description 12
- 230000001174 ascending effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000006855 networking Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
- G06F16/2315—Optimistic concurrency control
- G06F16/2322—Optimistic concurrency control using timestamps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种低频数据连续性确定方法和装置,可以判断低频数据的连续性,计算量较小,具有较强的实用性。方法部分包括:获取目标数据收集场景下收集的预设时段内的低频数据;按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,所述第二目标低频数据段中,时间间隔为相同目标时间间隔的数据划分在一起;从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据中的连续数据。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种低频数据连续性确定方法和对应的装置。
背景技术
在许多应用场景中,该应用场景下所产生的数据通常需要利用大数据工具对数据进行分析,从而获取所需的信息,而数据连续性会影响数据的分析处理结果。例如,是近年来兴起的汽车通信领域,在车联网应用场景下,通常是在整车设备中添加通信设备,将汽车电子元件产生的信号收集并进行网络传输,发送到网络服务器里。由于带宽和储存空间的影响,车联网收集的数据频率比整车产生的信号频率要低很多,为低频数据。
现有技术中,提供了一种数据缺失多重估计新方法以确定低频数据的连续性,该算法在数据模型构建阶段,利用随机采样原理,将缺失数据随机抽取生成数据子集,并用优化后的贝叶斯张量分解算法进行插补,将多个插补后的误差结果进行分析排序,最后判断数据连续性。可见,现有技术中,在面对低频数据下且数据字段众多,数据量巨大,若使用时间复杂度较大的方法去估计数据缺失值,再判断数据连续性,判断过程的时间复杂度非随数据大小线性变化,而需取决于缺省值的补充时间,计算量较大,导致实用性较差。
发明内容
本发明提供一种低频数据连续性确定方法和对应装置,以解决现有技术中连续性判定方法过于复杂,导致计算量过大、从而实用性较差的问题。
一种低频数据连续性确定方法,包括:
获取目标数据收集场景下收集的预设时段内的低频数据;
按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,所述第二目标低频数据段中,时间间隔为相同目标时间间隔的数据划分在一起;
从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性。
进一步地,所述通过创建的新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,包括:
创建所述第一目标低频数据段中各第一字段对应的第二字段,所述第二字段的取值为对应第一字段的排序序号和数据频率的乘积,所述第一字段为所述第一目标低频数据段中各时间戳对应的字段;
创建所述第一目标低频数据段中各第一字段对应的第三字段,所述第三字段的取值为对应第一字段的时间戳与对应第二字段的差;
按照所述第三字段的取值大小对所述第一目标低频数据段中各第一字段进行排序形成待划分数据段;
将所述待划分数据段中所述第三字段的取值相同的所述第一字段划分在一起,以得到所述第二目标低频数据段。
进一步地,所述从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段,包括:
对取值相同的所述第三字段进行分类统计,并根据取值相同的所述第三字段的统计值创建第四字段;
创建所述第二目标低频数据段中每两相邻数据对应的第五字段,所述第五字段的取值为所述第二目标低频数据段中第N+1条数据对应的所述第三字段的取值减去第N条数据对应的所述第三字段的取值;
在所述第二目标低频数据段的各划分数据段中,筛选出将所述第五字段大于或等于所述预设阈值对应的数据段;
将经过所述筛选的所述第二目标低频数据段作为所述目标数据段。
进一步地,所述目标数据段的开始时间为所述目标数据段对应的时间戳的最小值。
进一步地,所述低频数据为车联网数据。
进一步地,所述按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段,包括:
按照所述低频数据的时间戳信号对所述低频数据进行升序排序,得到第一目标低频数据段,且所述升序排序的排序序号从零开始。
一种低频数据连续性确定装置,包括:
第一获取模块,用于目标数据收集场景下收集的预设时段内的低频数据;
排序模块,用于按照时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
第二获取模块,用于通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,所述第二目标低频数据段中,时间间隔为相同目标时间间隔的数据划分在一起;
筛选模块,用于从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
确定模块,用于将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性。
进一步地,所述第二获取模块,具体用于:
创建所述第一目标低频数据段中各第一字段对应的第二字段,所述第二字段的取值为对应第一字段的排序序号和数据频率的乘积,所述第一字段为所述第一目标低频数据段中各时间戳数据对应的字段;
创建所述第一目标低频数据段中各第一字段对应的第三字段,所述第三字段的取值为对应第一字段的时间戳与对应第二字段的差;
按照所述第三字段的取值大小对所述第一目标低频数据段中各第一字段进行排序形成待划分数据段;
将所述待划分数据段中所述第三字段的取值相同的所述第一字段划分在一起,以得到所述第二目标低频数据段。
进一步地,所述筛选模块,具体用于:
对取值相同的所述第三字段进行分类统计,并根据取值相同的所述第三字段的统计值创建第四字段;
创建所述第二目标低频数据段中每两相邻数据对应的第五字段,所述第五字段的取值为所述第二目标低频数据段中第N+1条数据对应的所述第三字段的取值减去第N条数据对应的所述第三字段的取值;
在所述第二目标低频数据段中,筛选出将所述第五字段大于或等于所述预设阈值对应的数据段;
将经过所述筛选的所述第二目标低频数据段作为所述目标数据段。
进一步地,所述排序模块,具体用于:
按照所述低频数据的时间戳信号对所述低频数据进行升序排序,得到第一目标低频数据段,且所述升序排序的排序序号从零开始。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述低频数据连续性确定方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述低频数据连续性确定方法的步骤。
上述低频数据连续性确定方法和装置所提供的一个方案中,按照时间戳对低频数据进行排序之后,通过新创字段的方式,对排序后的低频数据进行了标识划分,以将时间间隔相同的时序数据划分出来,继而利用评估得到的预设阈值与划分出的各划分数据段进行比较,利用数据频率关系划分出了连续的目标数据段,若对预设时段内低频数据进行处理后得到的目标数据段为一段,则说明该预设时段内的低频数据为连续数据,若对预设时段内低频数据进行处理后得到的目标数据段为多段,则说明该预设时段内的低频数据为非连续数据,且每段目标数据段对应的数据为连续数据。可见,本发明与现有技术通过补全缺省值的方式相比,本方案通过新创字段,并利用低频数据中的数据频率关系便可划分出一段或多段连续数据,从而刻确定出了低频数据的连续性,实际操作可行性更高,具有较强的实用性和经济效益。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中低频数据连续性确定方法的一流程示意图;
图2是图1中步骤S30的一个具体实施例方式示意图;
图3是图1中步骤S40的一个具体实施例方式示意图;
图4是本发明一实施例中低频数据连续性确定装置的一示意图;
图5是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种低频数据连续性确定方法,旨在将获取的低频数据划分出连续数据,从而判定出低频数据的连续性。需要说明的是,该本发明所指的低频数据,指的是各种目标数据收集场景下收集的低频数据,例如车联网应用场景中,车辆上的车联网设备收集的车辆行驶数据等车联网数据,还可以是其他应用收集场景下的低频数据,具体本发明不做限定,也不一一说明。
可以理解,车联网指的是车辆上的车载设备通过无线通信技术,与其他车辆或网络平台实现物联网的技术,车辆上的车载设备会收集车辆中的相关数据并传输至网络服务器,以便于网络服务器实现相关的物联网功能。其中,用于车联网的相关数据也就是本发明实施例中的车联网数据,包括车辆的速度等相关行驶数据,具体不一一举例。
值得注意的是,基于车联网上传的车联网数据具备低频数据的特性,了解到由于网络带宽的影响,车辆上车联网设备上传的车联网数据比实车采集的数据频率要低,在对车联网数据进行分析时,通常需要获取连续数据,本发明中,为了便于分析并处理车联网数据,需提供一种方便,计算量小的低频数据连续性确定方法,可确定出车联网数据的连续性。
请参阅图1所示,提供了一种低频数据连续性确定方法,包括如下步骤:
S10:获取目标数据收集场景下收集的预设时段内的低频数据。
示例性的,该目标数据收集场景可以为车联网应用场景下的车联网数据收集场景,该低频数据指的是收集的车联网数据。在一实施方式中,可以利用大数据工具读取预设时间内收集的低频数据。
本发明实施例中,旨在判断获取的低频数据的连续性,收集的辆联网数据在上传时带有时间戳信息,可见判断的低频数据是一种时序数据,但不一定是连续数据,所以某些场景下需要判断低频数据的连续性,因此,需先读取预设时段内的低频数据,可以读取第一时间戳到第二时间戳之间的低频数据。需要说明的是,该第一时间戳到第二时间戳之间的时间段可以根据需求或应用场景设定,在此不限定。
另外值得说明的是,为了便于计算,本发明实施例可以收集的预设时段内的低频数据创建第一数据表,便于在数据表上进行后续计算,具体不做限定。
S20:按照低频数据的时间戳信号对低频数据进行排序,得到第一目标低频数据段。
如前述,读取的预设时段内的低频数据是一种时序数据,在获取到预设时段内的低频数据之后,需按照该低频数据的时间戳信号对低频数据进行排序,并根据排序结果对低频数据的各时序数据对应标上排序序号。这样,获取的第一时间戳到第二时间戳之间的低频数据的每个时序数据便有了对应的排序序号。
例如,设AS1(t1)-AS1(tN)表示排序后的低频数据的各时序数据,也就是第一目标低频数据段,其中,AS1(t1)-AS1(tN)表示第一时间戳t1到第二时间戳tN之间的低频数据,AS1(t1)-AS1(tN)分别表示t1-tN时间戳所采集的时序数据段,也即各低频数据段,本发明实施例中,将某个时间戳对应的低频数据段称为第一字段,且按照每个低频数据段的时间戳信号对数据段进行排序,得到第一目标低频数据段。
S30:通过创建新字段和数据频率标识第一目标低频数据段,以得到第二目标低频数据段,第二目标低频数据段中,时间间隔为相同目标时间间隔的数据划分在一起。
在得到第一目标低频数据段之后,通过创建新字段和低频数据的数据频率标识第一目标低频数据段,以得到第二目标低频数据段,其中,第二目标低频数据段中,时间间隔为相同时间间隔的数据划分在一起。
举个简单例子,若第一目标低频数据段为:AS1(t1)AS1(t2)AS1(t3)AS1(t5)AS1(t6)AS1(t8)AS1(t9),表示按照各时间戳进行排序后得到的时序低频数据段,此时,将第一目标低频数据段中将时间间隔为相同目标时间间隔的数据,也即分别将AS1(t1)、AS1(t2)、AS1(t3)划分在一起、以及将AS1(t5)、AS1(t6)划分在一起、以及将AS1(t8)、AS1(t9)划分在一起,形成第二目标低频数据段:AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)。从上述例子也可以明显看出,第二目标低频数据段中,时间间隔为相同时间间隔的数据划分了在一起。
本发明中,可通过创建新字段和第一目标低频数据段中个时序数据段的数据频率的关系标识出上述划分关系,从而得到第二目标低频数据段。
S40:从第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段。
通过创建新字段和数据频率标识第一目标低频数据段,以得到第二目标低频数据段之后,从第二目标低频数据段筛选出时间间隔小于预设阈值的目标数据段。
例如,在得到第二目标低频数据段:AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)之后,分别将各划分出的划分数据段,也即分别将AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)这三划分出的数据段对应的时间间隔与预设阈值进行比较,若某个划分出的数据段对应的时间间隔小于预设阈值,则该划分出的数据段即是目标数据段。例如,若AS1(t1)AS1(t2)AS1(t3)对应的时间间隔小于预设阈值,则AS1(t1)AS1(t2)AS1(t3)为目标数据段,以此类推。
需要说明的是,该预设阈值为根据实际情况评估输入的阈值参数,举个简单例子,在车联网应用场景中,连续丢失数据的阈值通常是与车辆信号的精度要求相关,示例性的,某些车辆信号是高频信号,则此时筛选出车联网数据的目标数据段时采用的预设阈值可为1s,若车辆信号是低频信号,则此时筛选出车联网数据的目标数据段时采用的预设阈值可为60s。对于其他应用场景下的低频数据,可根据实际情况进行评估并确认所用的阈值,在此不一一举例。
S50:将目标数据段对应的数据确定为连续数据,以获取低频数据中的连续数据。
在从第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段之后,将目标数据段对应的数据确定为连续数据,以确定低频数据中的连续数据,若对预设时段内低频数据进行处理后得到的目标数据段为一段,则说明该预设时段内的低频数据为连续数据,若对预设时段内低频数据进行处理后得到的目标数据段为多段,则说明该预设时段内的低频数据为非连续数据,且每段目标数据段对应的数据为连续数据,从而也就确定出了低频数据中的连续性。
可见,本发明提供了一种低频数据连续性确定方法,与现有技术通过补全缺省值的方式,本方案通过新创字段,并利用低频数据中的数据频率关系便可划分出一段或多段连续数据,从而获取到了低频数据的连续性,提供的方案的时间复杂度仅为线性增长,实际操作可行性更高,具有较强的经济效益,且在车联网应用环境找你过,可对多辆车辆的车联网数据同时的进行连续性判断,具有较高的可操作性。
在一实施例中,提出了一种具体地划分出第二目标低频数据段的方式,也即步骤S30中,通过创建新字段和数据频率标识第一目标低频数据段,以得到第二目标低频数据段的方式,如图2所示,具体包括如下步骤:
S31:创建第一目标低频数据段中各第一字段对应的第二字段,第二字段的取值为对应第一字段的排序序号和数据频率的乘积,第一字段为第一目标低频数据段中各时间戳对应的字段。
如前述,第一目标低频数据段是按照低频数据的时间戳信号对低频数据进行排序得到的数据段,为便于理解和说明方案,将第一目标低频数据段中各时间戳对应的字段称为第一字段。例如,设AS1(t1)-AS1(tN)是低频数据排序后的第一目标低频数据段,包括t1-tN就对应的N个时序数据段,AS1(t1)就是其中的1个第一字段,且每个第一字段对应有对应的排序序号。在一实施例中,在按照低频数据的时间戳对低频数据进行排序时,具体可以是指升序排序也可以是降序排序,具体本发明不做限定。为便于理解,本发明实施例均以升序为例进行说明,且对应的起始序号为0。可见,排序后的得到的第一目标低频数据段的每个第一字段均具有对应的排序序号。
本发明实施例中,在获取到第一目标低频数据段之后,会创建第一目标低频数据段中各第一字段对应的第二字段,第二字段的取值为对应第一字段的排序序号和数据频率的乘积。
举个简单例子,设第一目标低频数据段为:AS1(t1)AS1(t2)AS1(t3)AS1(t5)AS1(t6)AS1(t8)AS1(t9),设数据频率为f,由于从0开始升序,该第一目标低频数据段对应的排序序号为0-6,则AS1(t1)对应的第二字段的取值为AS2N=0*f,则AS1(t2)对应的第二字段的取值为1*f,对于第一目标低频数据段的其他字段可以此类推,从而可以创建出第二字段。
S32:创建第一目标低频数据段中各第一字段对应的第三字段,第三字段的取值为对应第一字段的时间戳与对应第二字段的差。
在得到第一目标低频数据段对应的第二字段之后,本发明实施例还会继续根据第二字段与对应第一字段创建第三字段,在一实施方式中,该第三字段的取值为对应第一字段的时间戳与对应第二字段的差。
例如,对于字段AS1(t1),则该字段AS1(t1)对应的第三字段的取值为为t1-0*f,对于字段AS1(t2),则该字段AS1(t2)对应的第三字段的取值为t2-1*f,对于第一目标低频数据段的其他字段对应的第三字段,可以此类推,从而可以创建出第三字段。
S33:按照第三字段的取值大小对第一目标低频数据段中各第一字段进行排序形成待划分数据段。
在得到第一目标低频数据段对应的第三字段之后,便可按照第三字段的取值大小对第一目标低频数据段中各第一字段进行排序形成待划分数据段,具体地,可按照第三字段的取值大小对第一目标低频数据段中各第一字段进行升序或降序,以形成待划分数据段。
这里以升序为例,例如,以第一目标低频数据段为AS1(t1)AS1(t3)AS1(t2)AS1(t5)AS1(t6)AS1(t8)AS1(t9)为例,在创建各时序数据段对应的第三字段之后,每个第三字段的取值均知道,各字段的第三字段的关系如下,坐标表示第一字段,右边表示第一字段对应的第三字段的取值:
AS1(t1)-t1-0*f;
AS1(t3)-t3-2*f;
AS1(t2)-t2-1*f;
AS1(t5)-t5-3*f;
AS1(t6)-t6-4*f;
AS1(t8)-t8-5*f;
AS1(t9)-t9-6*f。
可以理解的是,如果时序数据段是连续的,那么相邻数据段的采集时间间隔应当是相同的,例如AS1(t8)和AS1(t9),t8和t9那么则为相邻的时间间隔,说明AS1(t8)和AS1(t9)是连续的数据段。由以上第三字段的取值的关系可以明显看出,AS1(t1)AS1(t3)AS1(t2)AS1(t5)AS1(t6)AS1(t8)AS1(t9)按照对应第三字段的取值大小进行升序之后,得到待划分数据段为:AS1(t1)AS1(t2)AS1(t3)AS1(t5)AS1(t6)AS1(t8)AS1(t9)。
S34:将待划分数据段中第三字段的取值相同的第一字段划分在一起,以得到第二目标低频数据段。
在得到待划分数据段AS1(t1)AS1(t2)AS1(t3)AS1(t5)AS1(t6)AS1(t8)AS1(t9)之后,将待划分数据段中第三字段的取值相同的第一字段划分在一起,以得到第二目标低频数据段,得到第二目标低频数据段,为:AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)。
可以理解,第三字段的取值相同的第一字段可以确定为连续的时序数据段,可见,本发明实施例中,通过新创第二字段、第三字段的方式,利用字段之间的关系将低频数据中的连续的数据段标识了在一起,计算量更小,具有较强的实用性。
另外需要说明的是,在实际应用中,为便于计算,可从第一数据表中对低频数据进行处理从而得到第二目标低频数据段,形成第二数据表,以在第二数据表中进行后续计算。
在一实施例中,结合上述实施例,本发明实施例同样通过创建新字段的方式,从第二目标低频数据段中继续划分出连续数据段,步骤S40中,也即从第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段,具体包括如下步骤:
S41:对取值相同的第三字段进行分类统计,并根据取值相同的第三字段的统计值创建第四字段。
在得到第三字段之后,会对取值相同的第三字段进行分类统计,并根据取值相同的第三字段的统计值创建第四字段。
例如,若有第三字段的取值分别1、2和3,且取值为1、2和3的第三字段的个数分别为4、5和6,则可以创建出3个第四字段,取值分别为4、5和6。
S42:创建第二目标低频数据段中每两相邻数据对应的第五字段,第五字段的取值为第二目标低频数据段中第N+1条数据对应的第三字段的取值减去第N条数据对应的第三字段的取值。
在本发明实施例中,会继续创建第五字段,且第五字段的取值为第二目标低频数据段中第N+1条数据对应的第三字段的取值减去第N条数据对应的第三字段的取值。
S43:在第二目标低频数据段的各划分数据段中,筛选出将第五字段大于或等于预设阈值对应的数据段。
例如,在形成第二目标低频数据段AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)之后,以第N+1条数据为AS1(t8),第N条数据为AS1(t9)为例,会确定AS1(t9)与AS1(t8)之间的第五字段,此时,对于AS1(t9)与AS1(t8)而言,对应的第五字段第7条数据对应的第三字段的取值减去第6条数据对应的第三字段的取值,也即:(t9-6*f)-(t8-5*f),从这里可以看出,若N+1条数据与第N条数据为连续时序数据段,则此时的第五字段应该是相等的,若不相等,则说明N+1条数据与第N条数据为不连续的数据。
之后,本发明实施例会继续在第二目标低频数据段的各划分数据段中,筛选出将第五字段大于或等于预设阈值对应的数据段。
例如第二目标低频数据段AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)中,各划分数据段中的每相邻数据段之间对应的第五字段是相等的,此时还需进一步判定,每个划分数据段中对应的第五字段是否大于或等于预设阈值,若是,还需从各划分数据段中,筛选出将第五字段大于或等于预设阈值对应的数据段,由于举例中的AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)的各划分数据段均为连续的时序数据段,故筛选后划分后的第二目标低频数据段依然是AS1(t1)AS1(t2)AS1(t3)、AS1(t5)AS1(t6)、AS1(t8)AS1(t9)。
值得注意的是,在实际应用中,在第二目标低频数据段的各划分数据段中,筛选出将第五字段大于或等于预设阈值对应的数据段形成第三数据表,便于对经过筛选处理后的第二数据表进行连续性的确认,以提高计算便利性。
S44:将经过筛选的第二目标低频数据段作为目标数据段。
此时,对于第二数据表中的第二目标低频数据段,第五字段大于或等于预设阈值对应的数据段已经被筛选出,此时第二数据表中剩余的第二目标低频数据段就是目标数据段。
需要说明的是,在一应用场景中,目标数据段中的开始时间为目标数据段对应的时间戳的最小值,这样,在后续对连续数据进行分析时,可减少计算量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种低频数据连续性确定装置,该低频数据连续性确定装置与上述实施例中低频数据连续性确定方法一一对应。如图4所示,该低频数据连续性确定装置包括第一获取模块101、排序模块102、第二获取模块103、筛选模块104和确定模块105。各功能模块详细说明如下:
第一获取模块101,用于目标数据收集场景下收集的预设时段内的低频数据;
排序模块102,用于按照时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
第二获取模块103,用于通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,所述第二目标低频数据段中,时间间隔为相同目标时间间隔的数据划分在一起;
筛选模块104,用于从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
确定模块105,用于将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性。
在一实施例中,所述第二获取模块103,具体用于:
创建所述第一目标低频数据段中各第一字段对应的第二字段,所述第二字段的取值为对应第一字段的排序序号和数据频率的乘积,所述第一字段为所述第一目标低频数据段中各时间戳对应的字段;
创建所述第一目标低频数据段中各第一字段对应的第三字段,所述第三字段的取值为对应第一字段的时间戳与对应第二字段的差;
按照所述第三字段的取值大小对所述第一目标低频数据段中各第一字段进行排序形成待划分数据段;
将所述待划分数据段中所述第三字段的取值相同的所述第一字段划分在一起,以得到所述第二目标低频数据段。
在一实施例中,所述筛选模块104,具体用于:
对取值相同的所述第三字段进行分类统计,并根据取值相同的所述第三字段的统计值创建第四字段;
创建所述第二目标低频数据段中每两相邻数据对应的第五字段,所述第五字段的取值为所述第二目标低频数据段中第N+1条数据对应的所述第三字段的取值减去第N条数据对应的所述第三字段的取值;
在所述第二目标低频数据段中,筛选出将所述第五字段大于或等于所述预设阈值对应的数据段;
将经过所述筛选的所述第二目标低频数据段作为所述目标数据段。
在一实施例中,所述排序模块102,具体用于:
按照所述低频数据的时间戳信号对所述低频数据进行升序排序,得到第一目标低频数据段,且所述升序排序的排序序号从零开始。
可见,本发明提供了一种低频数据连续性确定装置,与现有技术通过补全缺省值的方式,本方案通过新创字段,并利用低频数据中的数据频率关系便可划分出一段或多段连续数据,从而获取到了低频数据的连续性,提供的方案的时间复杂度仅为线性增长,实际操作可行性更高,具有较强的经济效益,且在车联网应用环境找你过,可对多辆车辆的车联网数据同时的进行连续性判断,具有较高的可操作性。
关于低频数据连续性确定装置的具体限定可以参见上文中对于低频数据连续性确定方法的限定,在此不再赘述。上述低频数据连续性确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储获取/处理的低频数据。该计算机设备的网络接口用于与外部的设备通过网络连接通信。该计算机程序被处理器执行时以实现一种低频数据连续性确定方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标数据收集场景下收集的预设时段内的低频数据;
按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,其中,所述第二目标低频数据段中,时间间隔为相同时间间隔的数据划分在一起;
从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标数据收集场景下收集的预设时段内的低频数据;
按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,其中,所述第二目标低频数据段中,时间间隔为相同时间间隔的数据划分在一起;
从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种低频数据连续性确定方法,其特征在于,包括:
获取目标数据收集场景下收集的预设时段内的低频数据,其中,所述低频数据为车联网数据;
按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,其中,所述第二目标低频数据段中,时间间隔为相同时间间隔的数据划分在一起;
从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性;
其中,所述通过创建的新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,包括:
创建所述第一目标低频数据段中各第一字段对应的第二字段,所述第二字段的取值为对应第一字段的排序序号和数据频率的乘积,所述第一字段为所述第一目标低频数据段中各时间戳对应的字段;
创建所述第一目标低频数据段中各第一字段对应的第三字段,所述第三字段的取值为对应第一字段的时间戳与对应第二字段的差;
按照所述第三字段的取值大小对所述第一目标低频数据段中各所述第一字段进行排序形成待划分数据段;
将所述待划分数据段中所述第三字段的取值相同的所述第一字段划分在一起,以得到所述第二目标低频数据段。
2.如权利要求1所述的低频数据连续性确定方法,其特征在于,所述从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段,包括:
对取值相同的所述第三字段进行分类统计,并根据取值相同的所述第三字段的统计值创建第四字段;
创建所述第二目标低频数据段中每两相邻数据对应的第五字段,所述第五字段的取值为所述第二目标低频数据段中第N+1条数据对应的第三字段的取值减去第N条数据对应的第三字段的取值;
在所述第二目标低频数据段的各划分数据段中,筛选出将所述第五字段大于或等于所述预设阈值对应的数据段;
将经过所述筛选的所述第二目标低频数据段作为所述目标数据段。
3.如权利要求2所述的低频数据连续性确定方法,其特征在于,所述目标数据段的开始时间为所述目标数据段对应的时间戳的最小值。
4.如权利要求1-3任一项所述的低频数据连续性确定方法,其特征在于,所述按照所述低频数据的时间戳信号对所述低频数据进行排序,得到第一目标低频数据段,包括:
按照所述低频数据的时间戳信号对所述低频数据进行升序排序,得到第一目标低频数据段,且所述升序排序的排序序号从零开始。
5.一种低频数据连续性确定装置,其特征在于,包括:
第一获取模块,用于目标数据收集场景下收集的预设时段内的低频数据,其中,所述低频数据为车联网数据;
排序模块,用于按照时间戳信号对所述低频数据进行排序,得到第一目标低频数据段;
第二获取模块,用于通过创建新字段和数据频率标识所述第一目标低频数据段,以得到第二目标低频数据段,所述第二目标低频数据段中,时间间隔为相同目标时间间隔的数据划分在一起;
筛选模块,用于从所述第二目标低频数据段的各划分数据段中筛选出时间间隔小于预设阈值的目标数据段;
确定模块,用于将所述目标数据段对应的数据确定为连续数据,以确定所述低频数据的连续性;
其中,所述第二获取模块,具体用于:
创建所述第一目标低频数据段中各第一字段对应的第二字段,所述第二字段的取值为对应第一字段的排序序号和数据频率的乘积,所述第一字段为所述第一目标低频数据段中各时间戳对应的字段;
创建所述第一目标低频数据段中各第一字段对应的第三字段,所述第三字段的取值为对应第一字段的时间戳与对应第二字段的差;
按照所述第三字段的取值大小对所述第一目标低频数据段中各所述第一字段进行排序形成待划分数据段;
将所述待划分数据段中所述第三字段的取值相同的所述第一字段划分在一起,以得到所述第二目标低频数据段。
6.如权利要求5所述的低频数据连续性确定装置,其特征在于,所述筛选模块,具体用于:
对取值相同的所述第三字段进行分类统计,并根据取值相同的所述第三字段的统计值创建第四字段;
创建所述第二目标低频数据段中每两相邻数据对应的第五字段,所述第五字段的取值为所述第二目标低频数据段中第N+1条数据对应的所述第三字段的取值减去第N条数据对应的所述第三字段的取值;
在所述第二目标低频数据段中,筛选出将所述第五字段大于或等于所述预设阈值对应的数据段;
将经过所述筛选的所述第二目标低频数据段作为所述目标数据段。
7.如权利要求5-6任一项所述的低频数据连续性确定装置,其特征在于,所述排序模块,具体用于:
按照所述低频数据的时间戳信号对所述低频数据进行升序排序,得到第一目标低频数据段,且所述升序排序的排序序号从零开始。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182056.5A CN112286969B (zh) | 2020-10-29 | 2020-10-29 | 低频数据连续性确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182056.5A CN112286969B (zh) | 2020-10-29 | 2020-10-29 | 低频数据连续性确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112286969A CN112286969A (zh) | 2021-01-29 |
CN112286969B true CN112286969B (zh) | 2024-03-15 |
Family
ID=74352930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011182056.5A Active CN112286969B (zh) | 2020-10-29 | 2020-10-29 | 低频数据连续性确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112286969B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032413A (zh) * | 2021-03-10 | 2021-06-25 | 北京嘀嘀无限科技发展有限公司 | 数据采样方法、装置、电子设备、存储介质和程序产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4356484A (en) * | 1979-08-11 | 1982-10-26 | Licentia Patent Verwaltungs-G.M.B.H. | Method for transmitting data in a time multiplex transmission |
JP2007256526A (ja) * | 2006-03-22 | 2007-10-04 | Yamaha Corp | 波形合成装置およびプログラム |
CN103824461A (zh) * | 2014-03-18 | 2014-05-28 | 中国汽车技术研究中心 | 一种车辆行驶工况数据的识别与修正方法 |
CN105868071A (zh) * | 2016-03-23 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 监测数据的处理方法及装置 |
CN110070711A (zh) * | 2019-04-10 | 2019-07-30 | 华砺智行(武汉)科技有限公司 | 一种基于智能网联汽车数据的路段旅行速度区间估计系统和方法 |
CN110266774A (zh) * | 2019-06-04 | 2019-09-20 | 中国第一汽车股份有限公司 | 车联网数据质量的检验方法、装置、设备及存储介质 |
CN110321059A (zh) * | 2018-03-30 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN110633277A (zh) * | 2019-08-13 | 2019-12-31 | 平安科技(深圳)有限公司 | 时序数据存储方法、装置、计算机设备和存储介质 |
CN111030962A (zh) * | 2018-10-09 | 2020-04-17 | 厦门雅迅网络股份有限公司 | 车载网络入侵检测方法及计算机可读存储介质 |
CN111241072A (zh) * | 2018-11-29 | 2020-06-05 | 珠海格力电器股份有限公司 | 一种判断数据段连续性的方法及其系统 |
CN111311912A (zh) * | 2020-02-25 | 2020-06-19 | 北京天融信网络安全技术有限公司 | 车联网检测数据确定方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7346040B2 (en) * | 2003-02-24 | 2008-03-18 | Avalonrf, Inc. | Providing a high speed data modem based on MIMO technology using a cable or single antenna |
-
2020
- 2020-10-29 CN CN202011182056.5A patent/CN112286969B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4356484A (en) * | 1979-08-11 | 1982-10-26 | Licentia Patent Verwaltungs-G.M.B.H. | Method for transmitting data in a time multiplex transmission |
JP2007256526A (ja) * | 2006-03-22 | 2007-10-04 | Yamaha Corp | 波形合成装置およびプログラム |
CN103824461A (zh) * | 2014-03-18 | 2014-05-28 | 中国汽车技术研究中心 | 一种车辆行驶工况数据的识别与修正方法 |
CN105868071A (zh) * | 2016-03-23 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 监测数据的处理方法及装置 |
CN110321059A (zh) * | 2018-03-30 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN111030962A (zh) * | 2018-10-09 | 2020-04-17 | 厦门雅迅网络股份有限公司 | 车载网络入侵检测方法及计算机可读存储介质 |
CN111241072A (zh) * | 2018-11-29 | 2020-06-05 | 珠海格力电器股份有限公司 | 一种判断数据段连续性的方法及其系统 |
CN110070711A (zh) * | 2019-04-10 | 2019-07-30 | 华砺智行(武汉)科技有限公司 | 一种基于智能网联汽车数据的路段旅行速度区间估计系统和方法 |
CN110266774A (zh) * | 2019-06-04 | 2019-09-20 | 中国第一汽车股份有限公司 | 车联网数据质量的检验方法、装置、设备及存储介质 |
CN110633277A (zh) * | 2019-08-13 | 2019-12-31 | 平安科技(深圳)有限公司 | 时序数据存储方法、装置、计算机设备和存储介质 |
CN111311912A (zh) * | 2020-02-25 | 2020-06-19 | 北京天融信网络安全技术有限公司 | 车联网检测数据确定方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
车联网数据聚集研究综述;冯强 等;《智能计算机与应用》;第6卷(第4期);85-87+90 * |
Also Published As
Publication number | Publication date |
---|---|
CN112286969A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110839016A (zh) | 异常流量监测方法、装置、设备及存储介质 | |
CN107967323B (zh) | 基于大数据进行异常出行车辆分析的方法及系统 | |
CN113010389A (zh) | 一种训练方法、故障预测方法、相关装置及设备 | |
CN112286969B (zh) | 低频数据连续性确定方法和装置 | |
CN109816043A (zh) | 用户识别模型的确定方法、装置、电子设备及存储介质 | |
US11120308B2 (en) | Vehicle damage detection method based on image analysis, electronic device and storage medium | |
CN112466118A (zh) | 车辆驾驶行为识别方法、系统、电子设备及存储介质 | |
CN114443331A (zh) | 时序数据异常检测方法和装置 | |
CN111488939A (zh) | 模型训练方法、分类方法、装置及设备 | |
CN113902993A (zh) | 一种基于环境监测的环境状态分析方法及系统 | |
CN110837529B (zh) | 大数据分析监察方法、装置、服务器及可读存储介质 | |
CN111523609A (zh) | 车辆数据处理方法、装置、计算机设备和存储介质 | |
CN117591860A (zh) | 一种数据异常检测方法及装置 | |
JP6899674B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
CN112990350B (zh) | 目标检测网络训练方法及基于目标检测网络煤矸识别方法 | |
US20220083820A1 (en) | Method, Computer Program, Storage Medium and Apparatus for Creating a Training, Validation and Test Dataset for an AI Module | |
CN109800685A (zh) | 一种视频中对象的确定方法及装置 | |
CN107316313B (zh) | 场景分割方法及设备 | |
CN112149833B (zh) | 基于机器学习的预测方法、装置、设备和存储介质 | |
WO2022180681A1 (ja) | データ生成システム、データ生成方法およびデータ生成プログラム | |
JP7582438B2 (ja) | データ生成システム、データ生成方法およびデータ生成プログラム | |
CN112766481A (zh) | 神经网络模型的训练方法、装置及图像检测的方法 | |
CN110456766B (zh) | 一种生成分析用例的方法及装置 | |
JP2020181273A (ja) | 製造不良原因探索装置、製造不良原因探索方法 | |
CN113703923B (zh) | 一种业务问题的识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |