[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN105912609A - 一种数据文件处理方法和装置 - Google Patents

一种数据文件处理方法和装置 Download PDF

Info

Publication number
CN105912609A
CN105912609A CN201610211290.3A CN201610211290A CN105912609A CN 105912609 A CN105912609 A CN 105912609A CN 201610211290 A CN201610211290 A CN 201610211290A CN 105912609 A CN105912609 A CN 105912609A
Authority
CN
China
Prior art keywords
data file
subfile
key value
specific key
raw data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610211290.3A
Other languages
English (en)
Other versions
CN105912609B (zh
Inventor
杨声钢
李晓轩
和宏涛
金鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN201610211290.3A priority Critical patent/CN105912609B/zh
Publication of CN105912609A publication Critical patent/CN105912609A/zh
Application granted granted Critical
Publication of CN105912609B publication Critical patent/CN105912609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据文件处理方法和装置,该方法和装置根据定义的检索字段从原始数据文件中检索并收集与检索字段相同的特定关键值,然后对特定关键值进行分析,获取特定关键值的值域分布情况,然后结合Hadoop数据存放环境的集群资源使用情况确定文件存储策略和文件拆分策略,然后根据文件拆分策略对原始数据文件拆分为多个子文件,最终将各个子文件分别存储到HDFS集群的不同节点上。由上可知,本发明提供的数据文件处理方法和装置实现了数据文件的分布式存储。该分布式存储的子文件为数据文件的多线程操作提供了可能,因此,可以实现对多个子文件同时并行处理,提升数据处理效率。

Description

一种数据文件处理方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据文件处理方法和装置。
背景技术
目前,针对超大规模的数据文件,例如银行交易系统中的交易流水数据,其数据量可能会达到TB级。现有技术中通常将该超大规模的数据文件作为一个整体存储成一个大的数据文件。如此针对该数据量巨大的数据文件在数据交互过程中的数据的存储和导入加工均会消耗大量的时间,进而导致处理困难,时效性滞后。
而且,由于数据表作为一个整体存成一个数据文件,对这样一个数据量巨大的数据文件的操作往往只能是单线程,因此,对该数据文件的处理也会消耗大量的时间。
发明内容
有鉴于此,本发明提供了一种数据文件处理方法和装置,以减小处理数据消耗的时间,提高处理效率。
为了达到上述发明目的,本发明采用了如下技术方案:
一种数据文件处理方法,包括:
根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值;
对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布;
根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略;
根据所述拆分策略将所述原始数据文件拆分为多个子文件;
根据所述存储策略将各个子文件分别存储在相应节点上。
可选地,所述根据所述拆分策略将所述原始数据文件拆分为多个子文件, 具体包括:
根据拆分策略确定各个子文件的特定关键值的值域上下限;
在所述原始数据文件中定位各个子文件的特定关键值的值域上下限;
根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
可选地,所述对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布,具体包括:
基于Spark的流处理技术将收集到的特定关键值抽取到内存中;
对抽取到内存中的特定关键值进行并发快速分析,计算所述原始数据文件中的特定关键值的值域分布。
可选地,所述根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件,具体包括:
利用Spark管道处理技术,根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
可选地,所述根据所述存储策略将各个子文件分别存储在相应节点上后,还包括:
当原始数据文件需要与关系型数据库对接时,制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
可选地,所述根据所述存储策略将各个子文件分别存储在相应节点上后,还包括:
当前台应用需要查询原始数据文件时,制定开发查询元数据,通过类sql方法实现前台应用对存储在各个节点上的子文件的查询。
可选地,所述根据所述存储策略将各个子文件分别存储在相应节点上后,还包括:
当Webservice需要对原始数据文件进行访问时,制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
可选地,所述原始数据文件为压缩格式的数据文件或非压缩格式的数据文 件。
一种数据文件处理装置,包括:
检索和收集单元,用于根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值;
分析单元,用于对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布;
确定单元,用于根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略;
拆分单元,用于根据所述拆分策略将所述原始数据文件拆分为多个子文件;
存储单元,用于根据所述存储策略将各个子文件分别存储在相应节点上。
可选地,所述拆分单元包括:
确定子单元,用于根据拆分策略确定各个子文件的特定关键值的值域上下限;
定位子单元,用于在所述原始数据文件中定位各个子文件的特定关键值的值域上下限;
提取子单元,用于根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
可选地,所述分析单元包括:
抽取子单元,用于基于Spark的流处理技术将收集到的特定关键值抽取到内存中;
计算子单元,用于对抽取到内存中的特定关键值进行并发快速分析,计算所述原始数据文件中的特定关键值的值域分布。
可选地,所述提取子单元包括利用Spark管道处理技术,根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件的子单元。
可选地,所述装置还包括:
数据库对接单元,用于当原始数据文件需要与关系型数据库对接时,制定 开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
可选地,所述装置还包括:
查询单元,用于当前台应用需要查询原始数据文件时,制定开发查询元数据,通过类sql方法实现前台应用对存储在各个节点上的子文件的查询。
可选地,所述装置还包括:
Webservice访问单元,用于当Webservice需要对原始数据文件进行访问时,制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
可选地,所述原始数据文件为压缩格式的数据文件或非压缩格式的数据文件。
相较于现有技术,本发明具有以下有益效果:
通过以上技术方案可知,本发明提供的数据文件处理方法首先根据定义的检索字段从原始数据文件中检索并收集与检索字段相同的特定关键值,然后对特定关键值进行分析,获取特定关键值的值域分布情况,然后结合Hadoop数据存放环境的集群资源使用情况确定文件存储策略和文件拆分策略,然后根据文件拆分策略对原始数据文件拆分为多个子文件,最终将各个子文件分别存储到HDFS集群的不同节点上。由上可知,本发明提供的数据文件处理方法实现了数据文件的分布式存储。该分布式存储的子文件为数据文件的多线程操作提供了可能,因此,可以实现对多个子文件同时并行处理,提升数据处理效率。
附图说明
为了清楚地理解本发明的技术方案,下面将描述本发明具体实施方式时用到的附图做一简要说明。
图1是本发明实施例提供的数据文件处理方法流程示意图;
图2是本发明实施例提供的图1中的步骤S101的一个具体实现方式流程示意图;
图3是本发明实施例提供的一种数据文件处理装置结构示意图;
图4是本发明实施例提供的拆分单元的结构示意图;
图5是本发明实施例提供的分析单元结构示意图;
图6是本发明实施例提供的另一种数据文件处理装置结构示意图;
图7是基于图6所示的处理装置的数据处理方法流程示意图。
具体实施方式
为使本发明的目的、技术手段和技术效果更加清楚、完整,下面结合附图对本发明的具体实施方式进行详细描述。
为了清楚地理解本发明的技术方案,在介绍本发明的具体实施方式之前,首先介绍与本发明具体实施方式相关的技术术语。
Hadoop:分布式数据存储框架,通过分布式文件系统HDFS(Hadoop Distributed File System)可以将海量数据快速存储,并提供了多种快速检索处理的手段。
Spark:是一种基于内存的快速并行计算框架,它可以提供灵活强大的数据处理计算功能。它提高了在海量数据环境下数据处理的快速响应,同时保证了高容错性,成本低廉。
文件拆分:根据特定关键值的值域分布,以及Hadoop文件系统的存储资源使用情况对数据文件进行拆分。由于文件拆分为多个,可以并发操作,大幅提升性能。
外部表:是指不存在于数据库中的表。通过向Oracle提供描述外部表的元数据,我们可以把一个操作系统文件当成一个只读的数据库表,就像这些数据存储在一个普通数据库表中一样来进行访问。外部表是对数据库表的延伸。通过外部表可以实现对数据文件的增加、删除、修改和查找操作。
元数据:又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
下面结合附图对本发明的具体实施方式进行详细描述。
为了解决超大规模的数据文件作为一个整体存储成一个大的数据文件导致的后续对数据加工处理只能单线程操作,消耗大量时间的问题,本发明实施 例提供了一种数据文件处理方法,该数据文件处理方法可以快速对大规模数据文件进行分析、拆分、存储和管理,能够有效解决上述技术问题。该数据处理方法充分利用了Hadoop适用于海量数据存储的特点,通过分布式文件系统HDFS可以将一个大的数据文件拆分成多个子文件,然后将这些子文件分别存储在HDFS的不同节点上,从而实现了数据文件的分布式存储。
图1是本发明实施例提供的数据文件处理方法流程示意图。如图1所示,该方法包括以下步骤:
S101、根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值:
需要说明的是,本发明提供的数据文件处理方法不仅支持非压缩格式的数据文件,还支持压缩格式的数据文件。当原始数据文件为压缩格式的数据文件时,能够大幅节约存储空间。
需要说明的是,作为本发明的一个具体实施例,当预先获知了原始数据文件中的关键值时,步骤S101的具体实现方式可以如下所示:预先定义检索字段,然后扫描原始数据文件,根据预先定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值。
需要说明的是,本发明实施例定义的检索字段可以为原始数据文件中的任一关键值,例如可以为数据记录的主键ID。此外,本发明实施例的检索字段可以为文字型字段,还可以为数值型字段,与之对应地,特定关键值可以为文字型字段,也可以为数值型字段。
此外,作为本发明的另一具体实施例,当预先无法获知原始数据文件中的关键值时,步骤S101的具体实现方式可以如下:先扫描原始数据文件,对原始数据文件中的关键值进行摸底,即此时扫描原始数据文件的目的是为了获知原始数据文件中的关键值,然后根据获知的原始数据文件的关键值定义检索字段,然后再扫描原始数据文件根据检索字段从原始数据文件中检索并收集与检索字段相同的特定关键值。
此外,作为本发明的又一具体实施例,步骤S101的具体实现方式还可以如图2所示,其包括以下步骤:
S1011、扫描原始数据文件;
S1012、判断是否定义了检索字段,如果是,执行步骤S1013;如果否,执行步骤S1014;
S1013、扫描原始数据文件根据检索字段从原始数据文件中检索并收集与检索字段相同的特定关键值。
S1014、定义检索字段,返回执行步骤S1011,或者返回执行步骤S1013。
S102、对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布:
需要说明的是,作为本发明的一个可选实施例,可以基于Spark的流处理技术对收集到的关键值进行分析,计算原始数据文件的关键值的值域分布。
其中,基于Spark的流处理技术对收集到的关键值进行分析,计算原始数据文件的关键值的值域分布的具体实现过程包括以下两个步骤:
A1、基于Spark的流处理技术将收集到的特定关键值抽取到内存中。
A2、对抽取到内存中的特定关键值进行并发快速分析,计算所述原始数据文件中的特定关键值的值域分布:
具体地,针对特定关键值为数值型关键值的情况,特定关键值的值域分布即为特定关键值的值在原始数据文件中跨越的数值范围。例如,针对银行交易系统中的存款交易流水或贷款交易流水,当特定关键值为数据记录的主键ID时,当10000条记录的主键ID分布在1000至9999之间时,则该主键ID的值域分布为1000到9999之间的范围。
针对特定关键值为文字型关键值的情况,在计算原始数据文件的特定关键值的值域分布之前,需要预先对文字型关键值进行分类,例如根据字典数据内容将文字型关键值分为不同类,文字型关键值的类别即为该文字型关键值的值。此时,计算原始数据文件中的特定关键值的值域分布就是计算原始数据文件中的文字类别的数量。
S103、根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略:
其中,HDFS集群中各节点存储资源使用情况可以为各节点的剩余存储空间。下面举例说明本步骤的具体实施方式:
例如,HDFS集群中的节点数为10,可以将将该原始数据文件拆分为10个子文件,而且根据各节点的剩余存储空间和特定关键值的值域分布,确定拆分的各个子文件的大小以及各个子文件的值域分布上下限。举例说明:银行交易流水表中的10000条记录的主键ID分布在1000至9999之间,1000至3000的记录有9000条,那这9000条记录可以拆分成9个子文件,而3000至9000的数据为一个子文件。其中,拆分的子文件个数以及拆分的各个子文件的大小以及根据子文件的大小将其存储在大小适应的节点上的策略可以称之为存储策略。如何对原始数据文件进行拆分的策略称之为拆分策略。
需要说明的是,当特定关键值为数值型关键值时,其对应的值域分布中可能存在特定关键值的极值。当值域分布中存在特定关键值的极值时,为了后续拆分文件的方便,可以在文件拆分之前将这些极值从值域分布中去除,或者将这些极值从值域分布中提取出来,将这些极值数据形成单独的极值数据子文件。
S104、根据所述拆分策略将所述原始数据文件拆分为多个子文件:
本发明实施例可以利用Spark管道处理技术根据所述拆分策略将原始数据文件拆分为多个子文件。
作为本发明的一个示例,本步骤的具体实现方式可以包括以下步骤:
B1、根据拆分策略确定各个子文件的特定关键值的值域分布上下限:
上述步骤S103根据特定关键值的值域分布,结合HDFS集群中的各节点的存储资源情况以及节点数可以确定原始数据文件的拆分策略。
根据该拆分策略可以确定各个子文件的特定关键值的值域分布的上下限。
B2、在所述原始数据文件中定位各个子文件的特定关键值的值域分布上下限。
B3、根据各个子文件的特定关键值值域分布上下限,对所述原始数据文件进行拆分,提取出各个子文件:
利用Spark流处理技术根据各个子文件的特定关键值的值域分布上下限,对原始数据文件进行拆分,从原始数据文件中提取出各个子文件,提取出的各个子文件即为拆分后的子文件。
S105、根据所述存储策略将各个子文件分别存储在相应节点上:
在本发明实施例中,数据存储采用分布式存储框架Hadoop中的分布式文件系统HDFS,拆分出的各个子文件可以根据存储策略和各个子文件的文件大小分别存储到相应节点上。
为了实现将上述存储的数据文件导入数据库中,作为本发明的可选实施例,上述所述的数据文件处理方法还可以包括以下步骤:
S106、判断原始数据文件是否需要与关系型数据库对接,如果是,执行步骤S107,如果否,结束运行:
S107、制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
通过以上具体实施方式,本发明实施例利用外部表可以多线程对HDFS分布式存储的子文件并发操作,将各个子文件并发导入数据库。相较于现有技术中只能通过单线程将整个数据文件导入数据库的方式,本发明实施例使HDFS集群每个阶段的资源都被充分调动起来,处理效率成倍提升。
另外,本发明提供的数据文件处理方法能够支持压缩文件直接转换入库,所以,该数据文件处理方法不仅能够大幅提升数据处理效率,而且还能够节省很多存储空间。
为了实现前台应用对原始数据文件的查询统计,作为本发明的另一实施例,在上述实施例的基础上,还可以包括以下步骤:
S108、判断前台应用是否查询统计原始数据文件,如果是,执行步骤S109,如果否,结束运行。
S109、制定开发查询元数据,通过类sql(结构化查询语言,Structured Query Language)方法实现前台应用对存储在各个节点上的子文件的查询:
其中,标准sql语句通过Spark解析后可以完成一系列ETL操作,提供给前台页面。其中,ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
为了实现Webservice访问原始数据文件,作为本发明的又一实施例,在上述任一实施例的基础上,还可以进一步包括以下步骤:
S110、判断webservice是否需要访问原始数据文件,如果是,执行步骤S111,如果否,结束运行。
S111、制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
以上为本发明实施例提供的数据文件处理方法的具体实施方式。在该具体实施方式中,由于原始数据文件可以拆分为多个子文件,并将拆分后的多个子文件分别存储在HDFS集群中的不同节点上。因此,本发明提供的数据文件处理方法实现了数据文件的分布式存储,所以,该数据文件处理方法的数据存储过程能够充分利用存储资源,使存储资源利用更合理。而且,该分布式存储的子文件为数据文件的多线程操作提供了可能,因此,可以实现对子文件的访问能够实现并发多节点读写,使数据的访问操作效率实现了成倍提升。此外,HDFS可以部署在廉价的PC集群中,大幅节约成本。
另外,本发明实施例在计算特定关键值值域分布和原始数据文件拆分成子文件的过程中均利用了Spark流处理技术。因此,该数据处理方法充分发挥了Spark基于内存的并行计算优势,并且使用分布式文件系统的数据特点,大幅提高了数据处理效率。
此外,在对分布式存储数据文件的访问过程中,可以采用多线程并行访问处理,极大地提升了数据访问性能。另外,在该数据处理方法中,前台应用或Webservice可以直接对数据文件进行查询分析,不再在数据文件访问处理前,先将数据先导入数据库的操作。
基于上述实施例提供的数据文件处理方法,本发明实施例还提供了一种数据文件处理装置,具体参见以下实施例。
图3是本发明实施例提供的数据文件处理装置结构示意图。如图3所示,该处理装置包括以下单元:
检索和收集单元31,用于根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值;
分析单元32,用于对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布;
确定单元33,用于根据所述特定关键值的值域分布,结合HDFS集群中 的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略;
拆分单元34,用于根据所述拆分策略将所述原始数据文件拆分为多个子文件;
存储单元35,用于根据所述存储策略将各个子文件分别存储在相应节点上。
作为本发明的一个具体实施例,拆分单元34的结构示意图如图4所示,其可以具体包括:
确定子单元341,用于根据拆分策略确定各个子文件的特定关键值的值域上下限;
定位子单元342,用于在所述原始数据文件中定位各个子文件的特定关键值的值域上下限;
提取子单元343,用于根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
作为本发明的另一具体实施例,分析单元32的结构示意图如图5所示,可以具体包括:
抽取子单元321,用于基于Spark的流处理技术将收集到的特定关键值抽取到内存中;
计算子单元322,用于对抽取到内存中的特定关键值进行并发快速分析,计算所述原始数据文件中的特定关键值的值域分布。
为了利用Spark管道处理技术进行数据文件拆分,所述提取子单元343包括利用Spark管道处理技术,根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件的子单元。
为了实现数据文件与数据库的对接,上述所述的数据文件处理装置还可以包括:
数据库对接单元36,用于当原始数据文件需要与关系型数据库对接时,制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
为了实现前台应用对原始数据文件的查询统计,作为本发明的另一实施 例,上述所述的数据文件处理装置还可以包括:
查询单元37,用于当前台应用需要查询原始数据文件时,制定开发查询元数据,通过类sql方法实现前台应用对存储在各个节点上的子文件的查询。
为了实现Webservice访问原始数据文件,作为本发明的又一实施例,所述装置还可以包括:
Webservice访问单元38,用于当Webservice需要对原始数据文件进行访问时,制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
以上为本发明实施例提供的数据文件处理装置的具体实施方式。需要说明的是,上述实施例所述的数据文件处理装置中的各个功能单元是与图1所示的处理方法的各个步骤相对应的。
另外,由于本发明实施例提供的数据文件方法可以快速对大规模数据文件进行分析、拆分、存储和管理的过程,因此,还可以认为上述实施例提供的数据文件处理装置包括4个功能模块。每个功能模块内包括多个功能单元。此时,本发明实施例提供的数据文件处理装置框架示意图如图6所示,其包括以下模块:数据探索模块61、数据拆分模块62、数据存储模块63和数据访问模块64。
其中,数据探索模块61能够实现以下功能:根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值;对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布;根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略。
数据拆分模块62能够实现以下功能:根据所述拆分策略将所述原始数据文件拆分为多个子文件;该数据拆分模块62实现的功能更具体为:根据拆分策略确定各个子文件的特定关键值的值域上下限;在所述原始数据文件中定位各个子文件的特定关键值的值域上下限;根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
数据存储模块63能够实现以下功能:根据所述存储策略将各个子文件分别存储在相应节点上,从而实现数据文件的分布式存储。如图4所示,将原始数据文件存储成n个子文件。其中,n≥2,且n为整数。
数据访问模块64能够实现以下功能:当原始数据文件需要与关系型数据库对接时,制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。当前台应用需要查询原始数据文件时,制定开发查询元数据,通过类sql方法实现前台应用对存储在各个节点上的子文件的查询。当Webservice需要对原始数据文件进行访问时,制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
对应图3所示的数据文件处理装置,数据探索模块61包括检索和收集单元31、分析单元32和确定单元33;
数据拆分模块62包括拆分单元34;
数据存储模块63包括存储单元35;
数据访问模块64包括数据库对接单元36、查询单元37和Webservice访问单元38。
图7是基于图6所示的数据文件处理装置提供的数据文件处理方法流程示意图。如图7所示,在数据探索模块61内执行以下步骤:
S701、扫描原始数据文件。
S702、判断是否定义了检索字段,如果是,执行步骤S703,如果否,执行步骤S704。
S703、扫描原始数据文件根据检索字段从原始数据文件中检索并收集与检索字段相同的特定关键值。
S704、定义检索字段,返回执行步骤S701或返回执行步骤S703。
S704、对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布。
S705、根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及 各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略,然后转到数据拆分模块。
在数据拆分模块内执行以下步骤:
S706、根据拆分策略确定各个子文件的特定关键值的值域分布上下限。
S707、在所述原始数据文件中定位各个子文件的特定关键值的值域分布上下限。
S708、根据各个子文件的特定关键值值域分布上下限,对所述原始数据文件进行拆分,提取出各个子文件,然后转至数据存储模块。
在数据存储模块内执行以下步骤:
S709、根据所述存储策略将各个子文件分别存储在相应节点上。
为了实现对数据文件的访问,数据访问模块还可以执行以下步骤:
S710、判断原始数据文件是否需要与关系型数据库对接,如果是,执行步骤S711,如果否,结束运行。
S711、制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
S712、判断前台应用是否查询统计原始数据文件如果是,执行步骤S713,如果否,结束运行。
S713、制定开发查询元数据,通过类sql(结构化查询语言,Structured Query Language)方法实现前台应用对存储在各个节点上的子文件的查询:
S714、判断webservice是否需要访问原始数据文件,如果是,执行步骤S111,如果否,结束运行。
S715、制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
以上为本发明的优选实施例。需要说明的是,本领域技术人员在不脱离本发明构思的前提下,对上述实施例做出的任何改进和润饰,仅在本发明的保护范围之列。

Claims (16)

1.一种数据文件处理方法,其特征在于,包括:
根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值;
对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布;
根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略;
根据所述拆分策略将所述原始数据文件拆分为多个子文件;
根据所述存储策略将各个子文件分别存储在相应节点上。
2.根据权利要求1所述的方法,其特征在于,所述根据所述拆分策略将所述原始数据文件拆分为多个子文件,具体包括:
根据拆分策略确定各个子文件的特定关键值的值域上下限;
在所述原始数据文件中定位各个子文件的特定关键值的值域上下限;
根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
3.根据权利要求1所述的方法,其特征在于,所述对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布,具体包括:
基于Spark的流处理技术将收集到的特定关键值抽取到内存中;
对抽取到内存中的特定关键值进行并发快速分析,计算所述原始数据文件中的特定关键值的值域分布。
4.根据权利要求2所述的方法,其特征在于,所述根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件,具体包括:
利用Spark管道处理技术,根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述存储策略将各个子文件分别存储在相应节点上后,还包括:
当原始数据文件需要与关系型数据库对接时,制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述存储策略将各个子文件分别存储在相应节点上后,还包括:
当前台应用需要查询原始数据文件时,制定开发查询元数据,通过类sql方法实现前台应用对存储在各个节点上的子文件的查询。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述存储策略将各个子文件分别存储在相应节点上后,还包括:
当Webservice需要对原始数据文件进行访问时,制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述原始数据文件为压缩格式的数据文件或非压缩格式的数据文件。
9.一种数据文件处理装置,其特征在于,包括:
检索和收集单元,用于根据定义的检索字段从原始数据文件中检索并收集与所述检索字段相同的特定关键值;
分析单元,用于对收集到的特定关键值进行分析,计算所述原始数据文件的特定关键值的值域分布;
确定单元,用于根据所述特定关键值的值域分布,结合HDFS集群中的节点数以及各节点存储资源使用情况确定所述原始数据文件的存储策略和拆分策略;
拆分单元,用于根据所述拆分策略将所述原始数据文件拆分为多个子文件;
存储单元,用于根据所述存储策略将各个子文件分别存储在相应节点上。
10.根据权利要求9所述的装置,其特征在于,所述拆分单元包括:
确定子单元,用于根据拆分策略确定各个子文件的特定关键值的值域上下限;
定位子单元,用于在所述原始数据文件中定位各个子文件的特定关键值的值域上下限;
提取子单元,用于根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件。
11.根据权利要求9所述的装置,其特征在于,所述分析单元包括:
抽取子单元,用于基于Spark的流处理技术将收集到的特定关键值抽取到内存中;
计算子单元,用于对抽取到内存中的特定关键值进行并发快速分析,计算所述原始数据文件中的特定关键值的值域分布。
12.根据权利要求10所述的装置,其特征在于,所述提取子单元包括利用Spark管道处理技术,根据各个子文件的特定关键值的值域上下限,对所述原始数据文件进行拆分,提取出各个子文件的子单元。
13.根据权利要求9-12任一项所述的装置,其特征在于,所述装置还包括:
数据库对接单元,用于当原始数据文件需要与关系型数据库对接时,制定开发对接元数据,通过外部表的方式利用多线程将存储在HDFS集群节点中的各个子文件并发导入数据库。
14.根据权利要求9-12任一项所述的装置,其特征在于,所述装置还包括:
查询单元,用于当前台应用需要查询原始数据文件时,制定开发查询元数据,通过类sql方法实现前台应用对存储在各个节点上的子文件的查询。
15.根据权利要求9-12任一项所述的装置,其特征在于,所述装置还包括:
Webservice访问单元,用于当Webservice需要对原始数据文件进行访问时,制定开发Webservice元数据,通过类sql方法实现Webservice对存储在各个节点上的子文件的访问,并进行结果展示。
16.根据权利要求8-12任一项所述的装置,其特征在于,所述原始数据文件为压缩格式的数据文件或非压缩格式的数据文件。
CN201610211290.3A 2016-04-06 2016-04-06 一种数据文件处理方法和装置 Active CN105912609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610211290.3A CN105912609B (zh) 2016-04-06 2016-04-06 一种数据文件处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610211290.3A CN105912609B (zh) 2016-04-06 2016-04-06 一种数据文件处理方法和装置

Publications (2)

Publication Number Publication Date
CN105912609A true CN105912609A (zh) 2016-08-31
CN105912609B CN105912609B (zh) 2019-04-02

Family

ID=56744908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610211290.3A Active CN105912609B (zh) 2016-04-06 2016-04-06 一种数据文件处理方法和装置

Country Status (1)

Country Link
CN (1) CN105912609B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445645A (zh) * 2016-09-06 2017-02-22 北京百度网讯科技有限公司 用于执行分布式计算任务的方法和装置
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN107070987A (zh) * 2017-03-01 2017-08-18 网宿科技股份有限公司 用于分布式对象存储系统的数据获取方法及系统
CN107707903A (zh) * 2017-08-22 2018-02-16 贵阳朗玛信息技术股份有限公司 用户视频通信质量的确定方法及装置
CN108038239A (zh) * 2017-12-27 2018-05-15 中科鼎富(北京)科技发展有限公司 一种异构数据源规范化处理方法、装置及服务器
WO2019000962A1 (zh) * 2017-06-26 2019-01-03 平安科技(深圳)有限公司 收益计算方法、装置及计算机可读存储介质
CN109299043A (zh) * 2018-12-13 2019-02-01 浪潮电子信息产业股份有限公司 分布式集群系统大文件删除方法、装置、设备及存储介质
CN109299352A (zh) * 2018-11-14 2019-02-01 百度在线网络技术(北京)有限公司 搜索引擎中网站数据的更新方法、装置和搜索引擎
CN109343962A (zh) * 2018-10-26 2019-02-15 北京知道创宇信息技术有限公司 数据处理方法、装置及分布式服务系统
WO2019041771A1 (zh) * 2017-08-28 2019-03-07 平安科技(深圳)有限公司 名单切分的方法、装置、存储介质及终端
CN111597244A (zh) * 2020-05-19 2020-08-28 北京思特奇信息技术股份有限公司 一种数据快速导入的方法、系统及计算机存储介质
WO2021109777A1 (zh) * 2019-12-03 2021-06-10 中兴通讯股份有限公司 一种数据文件的导入方法及装置
WO2021238902A1 (zh) * 2020-05-25 2021-12-02 中兴通讯股份有限公司 数据导入方法、装置、服务平台及存储介质
CN116069753A (zh) * 2023-03-06 2023-05-05 浪潮电子信息产业股份有限公司 存算分离方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
CN103077241A (zh) * 2013-01-10 2013-05-01 中国银行股份有限公司 将文件拆分后并行加载数据入库的方法
US20130117273A1 (en) * 2011-11-03 2013-05-09 Electronics And Telecommunications Research Institute Forensic index method and apparatus by distributed processing
CN103294702A (zh) * 2012-02-27 2013-09-11 上海淼云文化传播有限公司 一种数据处理方法、装置及系统
US20140214752A1 (en) * 2013-01-31 2014-07-31 Facebook, Inc. Data stream splitting for low-latency data access
CN105205174A (zh) * 2015-10-14 2015-12-30 北京百度网讯科技有限公司 用于分布式系统的文件处理方法和装置
US9288049B1 (en) * 2013-06-28 2016-03-15 Emc Corporation Cryptographically linking data and authentication identifiers without explicit storage of linkage

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117273A1 (en) * 2011-11-03 2013-05-09 Electronics And Telecommunications Research Institute Forensic index method and apparatus by distributed processing
CN103294702A (zh) * 2012-02-27 2013-09-11 上海淼云文化传播有限公司 一种数据处理方法、装置及系统
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
CN103077241A (zh) * 2013-01-10 2013-05-01 中国银行股份有限公司 将文件拆分后并行加载数据入库的方法
US20140214752A1 (en) * 2013-01-31 2014-07-31 Facebook, Inc. Data stream splitting for low-latency data access
US9288049B1 (en) * 2013-06-28 2016-03-15 Emc Corporation Cryptographically linking data and authentication identifiers without explicit storage of linkage
CN105205174A (zh) * 2015-10-14 2015-12-30 北京百度网讯科技有限公司 用于分布式系统的文件处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱珠: "《基于Hadoop的海量数据处理模型研究和应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445645A (zh) * 2016-09-06 2017-02-22 北京百度网讯科技有限公司 用于执行分布式计算任务的方法和装置
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN106484877B (zh) * 2016-10-14 2019-04-26 东北大学 一种基于hdfs的文件检索系统
CN107070987A (zh) * 2017-03-01 2017-08-18 网宿科技股份有限公司 用于分布式对象存储系统的数据获取方法及系统
CN107070987B (zh) * 2017-03-01 2020-02-14 网宿科技股份有限公司 用于分布式对象存储系统的数据获取方法及系统
WO2019000962A1 (zh) * 2017-06-26 2019-01-03 平安科技(深圳)有限公司 收益计算方法、装置及计算机可读存储介质
CN107707903A (zh) * 2017-08-22 2018-02-16 贵阳朗玛信息技术股份有限公司 用户视频通信质量的确定方法及装置
WO2019041771A1 (zh) * 2017-08-28 2019-03-07 平安科技(深圳)有限公司 名单切分的方法、装置、存储介质及终端
CN108038239A (zh) * 2017-12-27 2018-05-15 中科鼎富(北京)科技发展有限公司 一种异构数据源规范化处理方法、装置及服务器
CN109343962A (zh) * 2018-10-26 2019-02-15 北京知道创宇信息技术有限公司 数据处理方法、装置及分布式服务系统
CN109299352A (zh) * 2018-11-14 2019-02-01 百度在线网络技术(北京)有限公司 搜索引擎中网站数据的更新方法、装置和搜索引擎
CN109299352B (zh) * 2018-11-14 2022-02-01 百度在线网络技术(北京)有限公司 搜索引擎中网站数据的更新方法、装置和搜索引擎
CN109299043A (zh) * 2018-12-13 2019-02-01 浪潮电子信息产业股份有限公司 分布式集群系统大文件删除方法、装置、设备及存储介质
WO2021109777A1 (zh) * 2019-12-03 2021-06-10 中兴通讯股份有限公司 一种数据文件的导入方法及装置
CN111597244A (zh) * 2020-05-19 2020-08-28 北京思特奇信息技术股份有限公司 一种数据快速导入的方法、系统及计算机存储介质
WO2021238902A1 (zh) * 2020-05-25 2021-12-02 中兴通讯股份有限公司 数据导入方法、装置、服务平台及存储介质
CN116069753A (zh) * 2023-03-06 2023-05-05 浪潮电子信息产业股份有限公司 存算分离方法、系统、设备及介质

Also Published As

Publication number Publication date
CN105912609B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN105912609A (zh) 一种数据文件处理方法和装置
CN104252536B (zh) 一种基于hbase的上网日志数据查询方法及装置
WO2015078273A1 (en) Method and apparatus for search
CN106326429A (zh) 一种基于solr的Hbase秒级查询方案
CN106777027B (zh) 大规模并行处理行列混合数据存储装置及存储、查询方法
CN103440288A (zh) 一种大数据存储方法及装置
CN101136027B (zh) 用于数据库索引、搜索和数据检索的系统和方法
US20160171052A1 (en) Method and system for document indexing and data querying
US20210357461A1 (en) Method, apparatus and storage medium for searching blockchain data
CN102236672A (zh) 一种数据导入方法及装置
CN104239377A (zh) 跨平台的数据检索方法及装置
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN108228743A (zh) 一种实时大数据搜索引擎系统
CN107301214A (zh) 在hive中数据迁移方法、装置及终端设备
CN111680043B (zh) 一种针对海量数据进行快速检索方法
CN114139040A (zh) 一种数据存储及查询方法、装置、设备及可读存储介质
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN113722296A (zh) 一种农业信息处理方法、装置、电子设备及存储介质
CN110874366A (zh) 数据处理、查询方法和装置
CN111090668B (zh) 数据检索方法及装置、电子设备和计算机可读存储介质
CN103164491B (zh) 一种数据处理和检索的方法及设备
CN102915324B (zh) 数据存储与检索装置和数据存储与检索方法
Ma et al. Efficient attribute-based data access in astronomy analysis
CN108984720B (zh) 基于列存储的数据查询方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant