CN111124679A - 一种面向多源异构海量数据限时自动处理方法 - Google Patents
一种面向多源异构海量数据限时自动处理方法 Download PDFInfo
- Publication number
- CN111124679A CN111124679A CN201911315349.3A CN201911315349A CN111124679A CN 111124679 A CN111124679 A CN 111124679A CN 201911315349 A CN201911315349 A CN 201911315349A CN 111124679 A CN111124679 A CN 111124679A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- file
- information
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 192
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000007726 management method Methods 0.000 claims abstract description 30
- 238000003860 storage Methods 0.000 claims abstract description 17
- 238000013461 design Methods 0.000 claims abstract description 15
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000004886 process control Methods 0.000 claims description 4
- 238000013468 resource allocation Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 244000035744 Hura crepitans Species 0.000 claims description 3
- 238000000586 desensitisation Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 2
- 238000012384 transportation and delivery Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 10
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004304 visual acuity Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 244000070406 Malus silvestris Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/273—Asynchronous replication or reconciliation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向多源异构海量数据限时自动处理方法,包括步骤如下:基于容器技术搭建数据处理运行环境;建立数据采集任务调度管理;设计数据文件解析优化;数据加工分布式并行处理;组件化设计处理流程编排可控;数据处理监控自动优化;事件与消息设计;优化存储和数据访问设计;优化数据采集管理。本发明通过数据处理流程的自动化优化设计以及过程可灵活控制的优化设计,对半结构化数据文件的解析、处理、加工效率大幅度提升,对海量历史数据与实时数据的关联、融合效率大幅提升。
Description
技术领域
本发明属于数据处理技术领域,具体指代一种面向多源异构海量数据限时自动处理的方法。
背景技术
社会公共信用信息基础库平台不同于一般政务系统,其需要同时面向各级政府和社会公众服务,具有高复杂性、高管理标准、覆盖面广、高性能要求、数据量巨大等特征。其中,最典型的特征便是高性能要求和数据量巨大。以某国家级平台对外公布的招标指标为例,在正常合理资源投入的情况下,平台需要对接全国范围内120个中央部门、32个省、43个试点城市、相关金融机构、相关互联网机构、相关第三方机构等近250个异构系统平台,进行数据采集和数据交换。业务指标要求每分钟平台处理数据量需达到千万条级别,管理数据量达到百亿级或PB级,并且需要在规定的时限内(通常是24小时,即“T+0”)完成数据处理,形成标准化的公共信用档案。
此外,公共信用信息区别于一般政务数据,具有数据分散且割裂通常成片段状(来源于各级具有公共职能的部门)、主体类型众多(如政府、事业单位、企业组织、个人等)、时效性要求高(“T+0”)等特点,造成信用信息数据处理与一般数据处理过程不同,具有多个“特色”处理环节,如信用主体信息识别、主体信息关联匹配、历史数据融合、数据质量校核、数据追溯(涉及修复业务)等。因此,信用信息的数据处理,除了对性能要求高外(时效性),对过程控制能力要求也颇高。
对于海量异构场景数据处理,目前的工作量和技术点主要在通过使用主流的大数据处理架构,如Hadoop、Strom、Spark,实现对海量数据的批处理、流处理,以加快数据处理速度。但这些主流方式因缺乏对过程的有效控制、难以合理设计资源分配策略等问题,对解决海量异构公共信用信息限时处理问题难以达到预期成效。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种面向多源异构海量数据限时处理方法,以解决现有技术在提高平台性能方面的不足。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种面向多源异构海量数据限时处理方法,包括步骤如下:
1)基于Docker搭建数据处理运行环境;
2)建立数据采集任务调度管理;
3)设计数据文件解析优化;
4)数据加工多线程并行处理;
5)组件化设计处理流程编排可控;
6)数据处理监控自动优化;
7)事件与消息设计;
8)优化存储和数据访问设计;
9)优化数据采集管理。
优选地,所述步骤1)具体包括:将数据处理管理程序运行在虚拟化容器中,使用沙箱机制虚拟出完整的程序运行环境。
优选地,所述步骤2)具体包括:建立数据采集任务调度机制,对数据采集任务按报送类型自动匹配采集方式,可预先设置采集部门、或数据类型的采集优先级(如采集工商和公安数据,法人数据以工商为主,工商优先级大于公安;自然人数据以公安为主,公安优先级大于工商),进行自动调度分配,并全程监控数据处理服务器运行负载情况,建立任务全程控制监控管理调度,按优先级、数据信息类别、总数据量大小、分配数据处理计算资源,提高数据处理能力;
在采集任务源头对文件校验,拦截去除格式损坏文件或内容重复文件,避免不必要的数据计算资源浪费。
优选地,所述步骤3)具体包括:
31)采用内存加载处理小文件;
32)采用内存文件映射处理大文件;
33)采用文件切块处理超大文本文件;
34)采用StAX流式解析XML文件;
35)采用流式API方式提升解析JSON大文件。
优选地,所述步骤4)具体包括:
41)将解析后的采集数据导入内存数据库,生成数据记录待加工消息放入消息队列;
42)实时监听并获取处理消息,采用多线程运行模式,根据处理资源配置能力,动态生成对应的信息类数据加工处理线程数;
43)信息类处理加工子线程根据消息中定义的数据记录标识ID,从内存数据库获取消息中的待处理信息记录数据内容(元数据与原始数据),按照对应编排的处理流程对数据记录各字段进行清洗、校验、脱敏、加密、去重、关联、反馈的加工处理;
44)信息类处理加工线程根据处理工序算法,将处理结果快速写入内存数据库对应的有效数据表中,并将处理过程日志按照统一服务调用接口,发送到数据处理日志管理服务中。
优选地,所述步骤5)具体包括:
51)对标准处理过程构建通用的加工组件;
52)加工组件构建粒度;
53)组件内部调用统一的处理日志服务接口,通过异步事件处理,发送处理日志到数据处理日志管理服务;
54)构建组件库服务,对组件统一管理,并对处理需求的不同建立版本控制,结合组件的自描述能力,实现组件的注册和发现;
55)建立实例化组件池,减少组件的生成系统开销;
56)对加密、脱敏、权限访问控制的功能实现组件化配置;
57)根据信用信息类的业务数据处理特征和处理过程依赖关系,将处理加工组件通过串行、分支、并行的处理过程进行逻辑编排缩减数据加工处理时间,提高处理加工效率。
优选地,所述步骤6)具体包括:
61)根据CPU内核数,设定数据处理服务进程和线程最大警戒数;
62)根据处理系统内存容量与内存数据库服务器的系统内存容量,设定内存使用量上限阀值;
63)实时监视系统计算资源负载状况,当系统接近超负荷运行时,自动控制或减少数据处理线程数,并通知数据采集任务调度管理服务,调整数据采集任务,缓冲后续数据加工并发处理压力,防止系统过载。
优选地,所述步骤7)具体包括:
71)建立数据采集任务队列,根据后续处理负载情况,调节队列任务,保持数据采集与数据加工的效率均衡;
72)数据采集解析入库时,通过发送待加工处理消息,进入数据记录处理加工消息队列,数据加工处理服务监听消息队列,消费对应订阅的信用信息类待处理记录消息,根据消息中定义数据记录ID获取内存数据库中的数据记录内容,多线程并发处理。
优选地,所述步骤8)具体包括:
81)采用内存数据库建立中间数据共享;
811)将数据采集的原始数据、处理加工结果数据,按照信用信息分类结构建立数据库表;
812)在内存数据库集群建立多个分布式数据库节点,并采用主从数据库设置模式,对处理数据进行垂直和水平切分,将信用信息数据根据业务特性分散存储,提升并发访问读写效率;
813)在内存数据库中编写算法,以提高数据记录通用处理效率;
814)将关联比对核心数据从集中式关系型数据库中获取常驻内存,利用内存库的高效读取,提高数据关联比对效率;
82)处理结果数据增量分类存储;
821)对数据内容信息字段相对较小的核心数据,采用集中式关系型数据库存储;
822)对文字内容较多或相对非核心数据的结构化或半结构化信用数据信息类,采用分布式数据库集群存储;
823)将内存数据库中的原始数据和处理过程数据,用异步方式同步到分布式数据库集群存储,并结合分布式日志搜索引擎,实现处理过程追溯的快速提取;
824)对各种非结构化数据采用集中式文件存储管理或集中式数据库存储管理。
优选地,所述步骤9)具体包括:
91)设定数据库访问或服务接口访问方式的信息类采集时间段,避开网络访问高峰;
92)对部门报送信用信息类进行分类,根据业务逻辑关联性将大数据量文件与小数据量文件报分批分期进行采集报送;
93)提供格式化文件规范标准模板和校验程序,提高信息来源部门的数据文件生成质量。
本发明的有益效果:
1、通过数据文件解析优化,对半结构数据文件的解析效率大幅度提升。
2、通过优化手段,有效提升数据处理加工效率。
3、通过监控任务进程、队列情况、事件或消息驱动,实现对任务顺序、串行/并向情况、资源使用情况进行灵活调整,使处理过程的性能动态可调。
4、可根据上报数据的格式、信息类型、时序(历史、实时数据)不同,灵活调整解析和处理的策略。
5、以业务特征定义处理规则和处理组建,通过对规则和组件进行灵活编排,大幅度提高历史、实时异构数据的关联融合成功;并且面向各类差异化数据处理需求时,无需重新构建方法,无需停止当前任务,即可编辑处理过程参数,实现灵活调整。
附图说明
图1为本发明方法的原理图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参照图1所示,本发明的一种面向多源异构海量数据限时处理方法,包括步骤如下:
1)基于Docker搭建数据处理运行环境;
将数据处理管理程序运行在虚拟化容器中,使用沙箱机制完全虚拟出完整的程序运行环境,容器之间不会有任何接口,从而让容器与宿主机之间、容器与容器之间隔离的更加彻底。每个容器均有各自的权限管理,独立的网络与存储栈,及资源管理,使同一宿主服务集群上可以友好的共存多个容器。
2)建立数据采集任务调度管理;
建立数据采集任务调度机制,对数据采集任务根据部门优先级、数据类型等进行自动调度分配,全程监控数据处理服务器运行负载情况,建立任务全程控制监控管理调度,按优先级、数据信息类别、总数据量大小,自动分配数据处理计算资源,提高数据处理能力;
在采集任务源头对文件校验,拦截去除格式损坏文件或内容重复文件,避免不必要的数据计算资源浪费。
3)设计数据文件解析优化;具体包括:
31)采用内存加载处理小文件;内存加载方式是最快速的解析处理文件运算方法,但不适应大容量数据文件的加载处理;
32)采用内存文件映射处理大文件;内存文件映射可以通过内存指针对磁盘上的文件进行访问,其过程就如同对加载了文件的内存的访问;通过文件映射使磁盘文件的全部或部分内容与进程虚拟地址空间的某个区域建立映射关联的能力,直接对被映射的文件进行访问,而不必执行文件I/O操作也无需对文件内容进行缓冲处理。内存文件映射适合于管理大尺寸文件。因此这种优化有能力以足够快的速度来处理文件操作。
33)采用文件切块处理超大文本文件;CSV是逗号分隔的文本文件,TSV是用制表符(Tab,’\t’)作为字段值的分隔符;对此类文本格式的文件采用文件切块方式,在不影响文件内数据记录的完整性的前提下(通常识别换行结束符)将超大文件切割成大小适当的多个文件,运用多线程并发解析处理。
34)采用StAX流式解析XML文件;XML是最适合存储半结构化的数据的文件格式类型,可以将不同类别的信息保存在XML的不同的节点中,实现够灵活的信息进行扩展,通常超大文件的XML文件不适应与文件切分方式进行多线程解析处理。
传统的基于DOM(文档对象模型)方式下的文件解析方式,允许编辑和更新XML文档,可以随机访问文档中的数据,但需要一次性加载整个文档到内存中,对于大型文档,会造成性能问题。
StAX(Streaming API for XML)是一种面向流的新方法,是Java 6.0针对XML的流式拉分析API。处理连续的字节序列,可以理解为不停地从源头向目标搬运着字节的特殊对象,StAX包括基于指针的API和基于迭代器的API两套处理XML的API,分别提供了不同程度的抽象。
35)采用流式API方式提升解析JSON大文件;
JSON已经成为系统应用之间数据传输的公认标准,微服务及分布式架构经常会使用JSON来传输文件,已经是WEB API的事实标准。数据采集将会面对大量使用JSON格式的数据大文件。
示例中,三种可选的JSON处理方法有:
a.树模型
提供一个JSON文档可变内存树的表示形式;树模型类似于XML DOM;是相对灵活的方式。
b.数据绑定
JSON和POJO相互转换,基于属性访问器规约或注解,是使用最方便的方式。
c.流式API
称为"增量分析/生成",读取和写入JSON内容作为离散事件。类似StAX API的处理方式,是内存使用量性能最佳的方式,相对其他两种是最低开销、速度最快的读/写方式。
4)数据加工多线程并行处理;
41)将解析后的采集数据导入内存数据库,生成数据记录待加工消息放入消息队列;
42)实时监听并获取待处理消息,采用多线程运行模式,根据处理资源配置能力,动态生成对应的信息类数据加工处理线程数;
43)信息类处理加工子线程根据消息中定义的数据记录标识ID,从内存数据库获取消息中的待处理信息记录数据内容(元数据与原始数据),按照对应编排的处理流程对数据记录各字段进行清洗、校验、脱敏、加密、去重、关联、反馈的加工处理;
44)信息类处理加工线程根据处理工序算法,将处理结果快速写入内存数据库对应的有效数据表中,并将处理过程日志按照统一服务调用接口,发送到数据处理日志管理服务中。
5)组件化设计处理流程编排可控;
数据加工的流程管理,采用组件化加工功能的方式,将清洗、校验、脱敏、加密、去重、关联等处理工序,构建成接口统一规范的运行组件,按照信用信息类的业务处理需求,根据数据处理规则配置,对服务组件处理逻辑和流程进行编排,提高系统的灵活性,实现数据处理加工的流程可控性、功能可扩展性。
6)数据处理监控自动优化;
实时跟踪监控数据处理过程的任务处理效率和资源使用情况,通过服务进程和计算线程数量的自动控制,实现数据处理吞吐能力的最优化。
61)根据CPU内核数,设定数据处理服务进程和线程最大警戒数;
62)根据处理系统内存容量与内存数据库服务器的系统内存容量,设定内存使用量上限阀值;
63)实时监视系统计算资源负载状况,当系统接近超负荷运行时,自动控制或减少数据处理线程数,并通知数据采集任务调度管理服务,调整数据采集任务,缓冲后续数据加工并发处理压力,防止系统过载。
7)事件与消息设计;
在多个数据处理过程中引入队列机制、事件驱动和消息驱动模式,程序间降低耦合,程序内部实现并发处理,改善数据处理全流程各环节程序阻抗匹配,大幅提升系统吞吐量,提高系统稳定性。
71)建立数据采集任务队列,根据后续处理负载情况,调节队列任务,保持数据采集与数据加工的效率均衡;
72)数据采集解析入库时,通过发送待加工处理消息,进入数据记录处理加工消息队列,数据加工处理服务监听消息队列,消费对应订阅的信用信息类待处理记录消息,根据消息中定义数据记录ID获取内存数据库中的数据记录内容,多线程并发处理。
8)优化存储和数据访问设计;
81)采用内存数据库建立中间数据共享
811)将数据采集的原始数据、处理加工结果数据,按照信用信息分类结构建立数据库表;
812)在内存数据库集群建立多个分布式数据库节点,并采用主从数据库设置模式,对处理数据进行垂直和水平切分,将信用信息数据根据业务特性分散存储,提升并发访问读写效率;
813)在内存数据库中编写算法,以提高数据记录通用处理效率,如计算原始数据记录和加工结果记录的哈希值(去重使用);
814)将关联比对核心数据从集中式关系型数据库中获取常驻内存,利用内存库的高效读取,提高数据关联比对效率;
82)处理结果数据增量分类存储
821)对数据内容信息字段相对较小的核心数据,如:企业法人基础数据、个人基础数据,关联比对核心数据等,采用集中式关系型数据库存储,易于数据关联分析查询和交叉统计分析,并方便大数据处理平台进行后续处理分析;
822)对文字内容较多或相对非核心数据的结构化或半结构化信用数据信息类,如文书报告类、资质许可、处罚决定等采用分布式数据库集群存储;
823)将内存数据库中的原始数据和处理过程数据,用异步方式同步到分布式数据库集群存储,并结合分布式日志搜索引擎,实现处理过程追溯的快速提取;
824)对图片、音频、视频、备份文件等各种非结构化数据采用集中式文件存储管理或集中式数据库存储管理,合理使用磁盘有效空间。
9)优化数据采集管理;
91)设定数据库访问或服务接口访问方式的信息类采集时间段(晚间定时、间隔分配),避开网络访问高峰,充分利用网络带宽,提高数据采集获取的吞吐量和稳定性;
92)对部门报送信用信息类进行分类,根据业务逻辑关联性将大数据量文件与小数据量文件报分批分期进行采集报送;
93)提供格式化文件规范标准模板和校验程序,提高信息来源部门的数据文件生成质量。
本发明通过数据文件解析优化,对半结构数据文件的解析效率大幅度提升。在与设备条件相近的测试环境中进行效率验证,结果满足基础性能需求,参见表1所示:
表1
如上表所示,数据文件解析能力,大于性能要求对于csv、tsv、xml、json等半结构化数据的解析能力每秒应不低于60MB的指标。
数据处性能要求平均每百万条记录加工计算时间在5分钟之内,计算下来达到3333条/秒的处理能力。
通过优化手段,有效提升数据处理加工效率,运用并发处理原则,以效率最低的处理步骤核算处理能力:5716.3条>3333条,满足性能要求。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (10)
1.一种面向多源异构海量数据限时处理方法,其特征在于,包括步骤如下:
1)基于Docker搭建数据处理运行环境;
2)建立数据采集任务调度管理;
3)设计数据文件解析优化;
4)数据加工多线程并行处理;
5)组件化设计处理流程编排可控;
6)数据处理监控自动优化;
7)事件与消息设计;
8)优化存储和数据访问设计;
9)优化数据采集管理。
2.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤1)具体包括:将数据处理管理程序运行在虚拟化容器中,使用沙箱机制虚拟出完整的程序运行环境。
3.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤2)具体包括:建立数据采集任务调度机制,对数据采集任务按报送类型自动匹配采集方式,预先设置采集部门或数据类型的采集优先级,进行自动调度分配,并全程监控数据处理服务器运行负载情况,建立任务全程控制监控管理调度,按优先级、数据信息类别、总数据量大小、分配数据处理计算资源,提高数据处理能力;
在采集任务源头对文件校验,拦截去除格式损坏文件或内容重复文件。
4.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤3)具体包括:
31)采用内存加载处理小文件;
32)采用内存文件映射处理大文件;
33)采用文件切块处理超大文本文件;
34)采用StAX流式解析XML文件;
35)采用流式API方式提升解析JSON大文件。
5.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤4)具体包括:
41)将解析后的采集数据导入内存数据库,生成数据记录待加工消息放入消息队列;
42)实时监听并获取处理消息,采用多线程运行模式,根据处理资源配置能力,动态生成对应的信息类数据加工处理线程数;
43)信息类处理加工子线程根据消息中定义的数据记录标识ID,从内存数据库获取消息中的待处理信息记录数据内容,按照对应编排的处理流程对数据记录各字段进行清洗、校验、脱敏、加密、去重、关联、反馈的加工处理;
44)信息类处理加工线程根据处理工序算法,将处理结果快速写入内存数据库对应的有效数据表中,并将处理过程日志按照统一服务调用接口,发送到数据处理日志管理服务中。
6.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤5)具体包括:
51)对标准处理过程构建通用的加工组件;
52)加工组件构建粒度;
53)组件内部调用统一的处理日志服务接口,通过异步事件处理,发送处理日志到数据处理日志管理服务;
54)构建组件库服务,对组件统一管理,并对处理需求的不同建立版本控制,结合组件的自描述能力,实现组件的注册和发现;
55)建立实例化组件池,减少组件的生成系统开销;
56)对加密、脱敏、权限访问控制的功能实现组件化配置;
57)根据信用信息类的业务数据处理特征和处理过程依赖关系,将处理加工组件通过串行、分支、并行的处理过程进行逻辑编排缩减数据加工处理时间,提高处理加工效率。
7.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤6)具体包括:
61)根据CPU内核数,设定数据处理服务进程和线程最大警戒数;
62)根据处理系统内存容量与内存数据库服务器的系统内存容量,设定内存使用量上限阀值;
63)实时监视系统计算资源负载状况,当系统接近超负荷运行时,自动控制或减少数据处理线程数,并通知数据采集任务调度管理服务,调整数据采集任务,缓冲后续数据加工并发处理压力,防止系统过载。
8.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤7)具体包括:
71)建立数据采集任务队列,根据后续处理负载情况,调节队列任务,保持数据采集与数据加工的效率均衡;
72)数据采集解析入库时,通过发送待加工处理消息,进入数据记录处理加工消息队列,数据加工处理服务监听消息队列,消费对应订阅的信用信息类待处理记录消息,根据消息中定义数据记录ID获取内存数据库中的数据记录内容,多线程并发处理。
9.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤8)具体包括:
81)采用内存数据库建立中间数据共享;
811)将数据采集的原始数据、处理加工结果数据,按照信用信息分类结构建立数据库表;
812)在内存数据库集群建立多个分布式数据库节点,并采用主从数据库设置模式,对处理数据进行垂直和水平切分,将信用信息数据根据业务特性分散存储,提升并发访问读写效率;
813)在内存数据库中编写算法,以提高数据记录通用处理效率;
814)将关联比对核心数据从集中式关系型数据库中获取常驻内存,利用内存库的高效读取,提高数据关联比对效率;
82)处理结果数据增量分类存储;
821)对数据内容信息字段相对较小的核心数据,采用集中式关系型数据库存储;
822)对文字内容较多或相对非核心数据的结构化或半结构化信用数据信息类,采用分布式数据库集群存储;
823)将内存数据库中的原始数据和处理过程数据,用异步方式同步到分布式数据库集群存储,并结合分布式日志搜索引擎,实现处理过程追溯的快速提取;
824)对各种非结构化数据采用集中式文件存储管理或集中式数据库存储管理。
10.根据权利要求1所述的面向多源异构海量数据限时处理方法,其特征在于,所述步骤9)具体包括:
91)设定数据库访问或服务接口访问方式的信息类采集时间段,避开网络访问高峰;
92)对部门报送信用信息类进行分类,根据业务逻辑关联性将大数据量文件与小数据量文件报分批分期进行采集报送;
93)提供格式化文件规范标准模板和校验程序,提高信息来源部门的数据文件生成质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315349.3A CN111124679B (zh) | 2019-12-19 | 2019-12-19 | 一种面向多源异构海量数据限时自动处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315349.3A CN111124679B (zh) | 2019-12-19 | 2019-12-19 | 一种面向多源异构海量数据限时自动处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111124679A true CN111124679A (zh) | 2020-05-08 |
CN111124679B CN111124679B (zh) | 2023-11-21 |
Family
ID=70500143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911315349.3A Active CN111124679B (zh) | 2019-12-19 | 2019-12-19 | 一种面向多源异构海量数据限时自动处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111124679B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737242A (zh) * | 2020-06-19 | 2020-10-02 | 福建南威软件有限公司 | 一种监控海量数据处理过程的方法 |
CN111914031A (zh) * | 2020-08-11 | 2020-11-10 | 中国科学院地质与地球物理研究所 | 一种基于大数据的星载磁场数据处理系统 |
CN111930705A (zh) * | 2020-07-07 | 2020-11-13 | 中国电子科技集团公司电子科学研究院 | 二进制消息协议数据处理方法及装置 |
CN112270600A (zh) * | 2020-10-29 | 2021-01-26 | 广东通莞科技股份有限公司 | 一种多源数据的处理方法、系统及相关装置 |
CN112632127A (zh) * | 2020-12-29 | 2021-04-09 | 国华卫星数据科技有限公司 | 设备运行实时数据采集及时序的数据处理方法 |
CN112699172A (zh) * | 2021-01-06 | 2021-04-23 | 中车青岛四方机车车辆股份有限公司 | 一种轨道车辆的数据处理方法及装置 |
CN112835711A (zh) * | 2021-01-27 | 2021-05-25 | 北京远盟普惠健康科技有限公司 | 一种数据处理方法及系统、计算机设备、计算机存储介质 |
CN113392282A (zh) * | 2021-06-22 | 2021-09-14 | 中国工商银行股份有限公司 | 基于流程编排的分布式异构金融数据处理方法及装置 |
CN113468168A (zh) * | 2021-05-27 | 2021-10-01 | 中国特种设备检测研究院 | 一种起重机械多源异构数据高速采集与处理软控制方法 |
CN113485793A (zh) * | 2021-07-15 | 2021-10-08 | 广东电网有限责任公司中山供电局 | 基于容器技术的多源异构数据接入通道在线弹性扩展方法 |
CN113507491A (zh) * | 2021-04-30 | 2021-10-15 | 华中农业大学 | 一种洁蛋生产全链条信息实时上传方法及系统 |
CN113590236A (zh) * | 2021-08-03 | 2021-11-02 | 聚好看科技股份有限公司 | 一种服务器及微服务声明式接口超时配置方法 |
CN114253713A (zh) * | 2021-12-07 | 2022-03-29 | 中信银行股份有限公司 | 一种基于reactor的异步批处理方法及系统 |
CN114448902A (zh) * | 2022-01-26 | 2022-05-06 | 江苏徐工工程机械研究院有限公司 | 一种分级响应接口的运维方法及系统 |
CN114510367A (zh) * | 2022-01-11 | 2022-05-17 | 电子科技大学 | 一种安全智能的多源异构数据处理系统 |
CN114968553A (zh) * | 2022-03-23 | 2022-08-30 | 武汉大学 | 面向海量机器学习任务的异构服务器自动调度系统及方法 |
CN116991925A (zh) * | 2023-07-27 | 2023-11-03 | 广东德尔智慧科技股份有限公司 | 一种高速采集数据以及快速海量数据保存的方法 |
CN117076545A (zh) * | 2023-10-13 | 2023-11-17 | 中国电子科技集团公司第十五研究所 | 适用于军事行动大数据的数据处理方法及装置 |
CN117290451A (zh) * | 2023-09-12 | 2023-12-26 | 上海沄熹科技有限公司 | 一种保证数据库系统事务一致性的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160357778A1 (en) * | 2015-06-02 | 2016-12-08 | David MacKenzie | System for handling event messages for file collaboration |
CN108846076A (zh) * | 2018-06-08 | 2018-11-20 | 山大地纬软件股份有限公司 | 支持接口适配的海量多源异构数据etl方法及系统 |
CN109492040A (zh) * | 2018-11-06 | 2019-03-19 | 深圳航天智慧城市系统技术研究院有限公司 | 一种适用于数据中心海量短报文数据处理的系统 |
CN109542011A (zh) * | 2018-12-05 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种多源异构监测数据的标准化采集系统 |
-
2019
- 2019-12-19 CN CN201911315349.3A patent/CN111124679B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160357778A1 (en) * | 2015-06-02 | 2016-12-08 | David MacKenzie | System for handling event messages for file collaboration |
CN108846076A (zh) * | 2018-06-08 | 2018-11-20 | 山大地纬软件股份有限公司 | 支持接口适配的海量多源异构数据etl方法及系统 |
CN109492040A (zh) * | 2018-11-06 | 2019-03-19 | 深圳航天智慧城市系统技术研究院有限公司 | 一种适用于数据中心海量短报文数据处理的系统 |
CN109542011A (zh) * | 2018-12-05 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种多源异构监测数据的标准化采集系统 |
Non-Patent Citations (1)
Title |
---|
卢小宾;王涛;: "Google三大云计算技术对海量数据分析流程的技术改进优化研究" * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737242A (zh) * | 2020-06-19 | 2020-10-02 | 福建南威软件有限公司 | 一种监控海量数据处理过程的方法 |
CN111930705A (zh) * | 2020-07-07 | 2020-11-13 | 中国电子科技集团公司电子科学研究院 | 二进制消息协议数据处理方法及装置 |
CN111930705B (zh) * | 2020-07-07 | 2023-03-14 | 中国电子科技集团公司电子科学研究院 | 二进制消息协议数据处理方法及装置 |
CN111914031A (zh) * | 2020-08-11 | 2020-11-10 | 中国科学院地质与地球物理研究所 | 一种基于大数据的星载磁场数据处理系统 |
CN112270600A (zh) * | 2020-10-29 | 2021-01-26 | 广东通莞科技股份有限公司 | 一种多源数据的处理方法、系统及相关装置 |
CN112632127A (zh) * | 2020-12-29 | 2021-04-09 | 国华卫星数据科技有限公司 | 设备运行实时数据采集及时序的数据处理方法 |
CN112699172A (zh) * | 2021-01-06 | 2021-04-23 | 中车青岛四方机车车辆股份有限公司 | 一种轨道车辆的数据处理方法及装置 |
CN112835711A (zh) * | 2021-01-27 | 2021-05-25 | 北京远盟普惠健康科技有限公司 | 一种数据处理方法及系统、计算机设备、计算机存储介质 |
CN113507491A (zh) * | 2021-04-30 | 2021-10-15 | 华中农业大学 | 一种洁蛋生产全链条信息实时上传方法及系统 |
CN113468168A (zh) * | 2021-05-27 | 2021-10-01 | 中国特种设备检测研究院 | 一种起重机械多源异构数据高速采集与处理软控制方法 |
CN113468168B (zh) * | 2021-05-27 | 2024-01-19 | 中国特种设备检测研究院 | 一种起重机械多源异构数据高速采集与处理软控制方法 |
CN113392282A (zh) * | 2021-06-22 | 2021-09-14 | 中国工商银行股份有限公司 | 基于流程编排的分布式异构金融数据处理方法及装置 |
CN113485793A (zh) * | 2021-07-15 | 2021-10-08 | 广东电网有限责任公司中山供电局 | 基于容器技术的多源异构数据接入通道在线弹性扩展方法 |
CN113485793B (zh) * | 2021-07-15 | 2023-11-28 | 广东电网有限责任公司中山供电局 | 基于容器技术的多源异构数据接入通道在线弹性扩展方法 |
CN113590236B (zh) * | 2021-08-03 | 2023-10-31 | 聚好看科技股份有限公司 | 一种服务器及微服务声明式接口超时配置方法 |
CN113590236A (zh) * | 2021-08-03 | 2021-11-02 | 聚好看科技股份有限公司 | 一种服务器及微服务声明式接口超时配置方法 |
CN114253713A (zh) * | 2021-12-07 | 2022-03-29 | 中信银行股份有限公司 | 一种基于reactor的异步批处理方法及系统 |
CN114510367A (zh) * | 2022-01-11 | 2022-05-17 | 电子科技大学 | 一种安全智能的多源异构数据处理系统 |
CN114448902B (zh) * | 2022-01-26 | 2023-07-04 | 江苏徐工工程机械研究院有限公司 | 一种分级响应接口的运维方法及系统 |
CN114448902A (zh) * | 2022-01-26 | 2022-05-06 | 江苏徐工工程机械研究院有限公司 | 一种分级响应接口的运维方法及系统 |
CN114968553A (zh) * | 2022-03-23 | 2022-08-30 | 武汉大学 | 面向海量机器学习任务的异构服务器自动调度系统及方法 |
CN114968553B (zh) * | 2022-03-23 | 2024-09-24 | 武汉大学 | 面向海量机器学习任务的异构服务器自动调度系统及方法 |
CN116991925A (zh) * | 2023-07-27 | 2023-11-03 | 广东德尔智慧科技股份有限公司 | 一种高速采集数据以及快速海量数据保存的方法 |
CN116991925B (zh) * | 2023-07-27 | 2024-03-15 | 广东德尔智慧科技股份有限公司 | 一种高速采集数据以及快速海量数据保存的方法 |
CN117290451A (zh) * | 2023-09-12 | 2023-12-26 | 上海沄熹科技有限公司 | 一种保证数据库系统事务一致性的方法及系统 |
CN117290451B (zh) * | 2023-09-12 | 2024-06-07 | 上海沄熹科技有限公司 | 一种保证数据库系统事务一致性的方法及系统 |
CN117076545A (zh) * | 2023-10-13 | 2023-11-17 | 中国电子科技集团公司第十五研究所 | 适用于军事行动大数据的数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111124679B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111124679B (zh) | 一种面向多源异构海量数据限时自动处理方法 | |
CN108009236B (zh) | 一种大数据查询方法、系统、计算机及存储介质 | |
US10069916B2 (en) | System and method for transparent context aware filtering of data requests | |
Verma et al. | Breaking the MapReduce stage barrier | |
CN107145586B (zh) | 一种基于电力营销数据的标签产出方法和装置 | |
Isah et al. | A scalable and robust framework for data stream ingestion | |
US20170262185A1 (en) | Active data-aware storage manager | |
US20100223269A1 (en) | System and method for an efficient query sort of a data stream with duplicate key values | |
CN103473276B (zh) | 超大型数据存储方法、分布式数据库系统及其检索方法 | |
CN113312376B (zh) | 一种用于Nginx日志实时处理分析的方法及终端 | |
US20180129712A1 (en) | Data provenance and data pedigree tracking | |
CN108829505A (zh) | 一种分布式调度系统及方法 | |
CN116089414B (zh) | 基于海量数据场景的时序数据库写入性能优化方法及装置 | |
CN112363812B (zh) | 基于任务分类的数据库连接队列管理方法及存储介质 | |
CN107506381A (zh) | 一种大数据分布式调度分析方法、系统装置及存储介质 | |
CN109344137A (zh) | 一种日志存储方法及系统 | |
CN114756629B (zh) | 基于sql的多源异构数据交互分析引擎及方法 | |
Liu et al. | Mr-cof: a genetic mapreduce configuration optimization framework | |
Michel et al. | PIQ: Persistent interactive queries for network security analytics | |
WO2018099202A1 (zh) | 一种数据存储维护方法及装置和计算机存储介质 | |
Jin et al. | The research for storage scheme based on Hadoop | |
Hong et al. | Big Data Analysis System Based on Cloudera Distribution Hadoop | |
CN114153695A (zh) | 一种基于Android的松耦合、高扩展性无埋点数据采集方法 | |
Jeřábek et al. | Big data network flow processing using Apache Spark | |
Wang | Research on the design of large data storage structure of database based on Data Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |