CN105426472A

CN105426472A - 分布式计算系统及其数据处理方法

Info

Publication number: CN105426472A
Application number: CN201510791223.9A
Authority: CN
Inventors: 孙煜华; 毛为民; 张志亮; 陆宏治; 吴永欢; 梁哲辉
Original assignee: Guangzhou Power Supply Bureau Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2016-03-23
Anticipated expiration: 2035-11-16
Also published as: CN105426472B

Abstract

本发明涉及一种分布式计算系统及其数据处理方法，Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至混合存储模块中的SSD单元；SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令，并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算系统相比，在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入SSD作为Spark计算的缓存层来补充内存的有限空间，既可以加快I/O吞吐，同时解决内存空间不足以应对大数据量的局限，实现分布式计算系统的高性能处理能力。

Description

分布式计算系统及其数据处理方法

技术领域

本发明涉及数据处理技术领域，特别是涉及一种分布式计算系统及其数据处理方法。

背景技术

数据作为企业最重要的资产，一直以来都是企业应用、技术、架构和服务等创新的源泉。随着信息数据化和互联网技术的发展，企业数据正在迅速增长，庞大而复杂的数据能带来远超传统数据的信息，同时也需要与传统数据截然不同的处理方式。

Hadoop最核心的设计是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce计算模型。HDFS被设计部署在价格低廉的硬件上，依靠数据冗余达到高度容错，提供高吞吐量的数据访问，适合批量处理大量数据。MapReduce将复杂的计算过程抽象为多组map和reduce步骤，map和reduce各由多个mapper和reducer函数执行，将不同mapper和reducer分配至不同的计算节点，实现了在大型计算集群上的高效分布式计算处理。

当用户要求Hadoop作为一个全栈平台，同时兼容批处理交互迭代式查询和流处理时，Hadoop架构的局限性日益显现。最大的瓶颈之一是MapReduce的大量中间结果需要向磁盘进行读写，当计算量大时，磁盘I/O(输入/输出)是显而易见的瓶颈，导致MapReduce不适合迭代式(Iterative)和交互式(Interactive)应用。传统的分布式计算系统受限于磁盘I/O而存在低性能问题。

发明内容

基于此，有必要针对上述问题，提供一种可实现高性能处理能力的分布式计算系统及其数据处理方法。

一种分布式计算系统，包括Spark平台模块和混合存储模块，所述混合存储模块包括SSD单元和存储层单元，所述SSD单元连接所述Spark平台模块，所述存储层单元连接所述SSD单元，

所述Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至所述SSD单元进行缓存，所述SSD单元将缓存的数据发送至所述存储层单元进行存储；所述Spark平台模块还用于接收查询指令，并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。

一种分布式计算系统的数据处理方法，包括以下步骤：

通过Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至混合存储模块中的SSD单元；

通过所述SSD单元将缓存的数据发送至所述混合存储模块中的存储层单元进行存储；

通过所述Spark平台模块接收查询指令，并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。

上述分布式计算系统及其数据处理方法，Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据并发送至混合存储模块中的SSD单元；SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令，并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算系统相比，在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入SSD作为Spark计算的缓存层来补充内存的有限空间，既可以加快I/O吞吐，同时解决内存空间不足以应对大数据量的局限，实现分布式计算系统的高性能处理能力。

附图说明

图1为一实施例中分布式计算系统的结构图；

图2为一实施例中分布式计算系统的示意图；

图3为一实施例中分布式计算系统的数据处理方法的流程图。

具体实施方式

一种分布式计算系统，如图1所示，包括Spark平台模块120和混合存储模块130，混合存储模块130包括SSD(SolidStateDrives，固态硬盘)单元132和存储层单元134，SSD单元132连接Spark平台模块120，存储层单元134连接SSD单元132。

Spark平台模块120利用大数据处理框架Spark作为计算引擎，根据获取到的数据信息进行处理后，将处理得到的数据发送至SSD单元132进行缓存，SSD单元132将缓存的数据发送至存储层单元134进行存储；Spark平台模块120还用于接收查询指令，并经SSD单元132从存储层单元134获取与查询指令对应的数据后输出。本实施例中在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入价格约只有内存价格十分之一的SSD代替HDD(HardDiskDrive，机械硬盘)作内存之外的缓存，让SSD和内存共同组成混合存储体系，提升存储空间利用率和处理效率。存储层单元134具体可包括用于存储数据的存储元件。

在其中一个实施例中，Spark平台模块120将数据发送至SSD单元132后，以行列混合存储的ORCFile格式进行缓存。ORCFile的前身是一种高效的数据存储结构RCFile(RecordColumnarFile)，并被应用于后来发展为ApacheHive的Facebook的数据仓库中。RCFile更有效地满足基于MapReduce的数据仓库的四个关键需求，即快速加载数据、快速处理查询、高效利用存储空间和高度适应动态工作负载。

RCFile的核心思想是首先把表水平切分成多个行组(rowgroups)，然后组内按照列垂直切分，这样行组之内便按列存储。当一个行组内的所有列写到磁盘时，RCFile就会以列为单位对数据使用类zlib/lzo的算法进行压缩。当读取列数据的时候使用惰性解压策略(lazydecompression)，也就是说用户的某个查询如果只是涉及到部分列，RCFile只会解压涉及到的列而跳过无关列。

ORCFile的设计思想相似在RCFile的基础上做了优化，具体改进为：1)每个Sparktask只输出单个文件。2)文件中存储了一些轻量级的索引数据；3)基于数据类型的块模式压缩；4)用多个互相独立的RecordReaders并行读相同的文件；5)控制读写所需要的内存量。

本实施例中使用针对SSD硬件特性而优化的存储格式，对存储在SSD单元132上的数据采用行列混合式文件(ORC)结构进行存储，充分发挥SSD硬件特性，提升处理性能和压缩空间。大幅提升大数据系统处理的性能。

在其中一个实施例中，如图2所示，Spark平台模块120包括多个执行单元122，多个执行单元122均连接SSD单元132。通过多个执行单元122分别进行数据存储和读取操作，提高数据处理速度，且确保操作可靠性。

在其中一个实施例中，混合存储模块130还包括文件系统API(ApplicationProgrammingInterface，应用程序编程接口)接口131，SSD单元132通过文件系统API接口131与Spark平台模块120连接，以进行数据传输。

在其中一个实施例中，继续参照图2，分布式计算系统还包括连接Spark平台模块120的数据接收模块110，数据接收模块110用于接收数据并发送至Spark平台模块120，以及接收查询指令发送至Spark平台模块120，并输出Spark平台模块120返回的数据。

此外，分布式计算系统还可包括连接混合存储模块130的容量监控模块，容量监控模块用于对混合存储模块130的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。预设阈值的具体取值可根据混合存储模块130的容量大小决定，输出报警信息可以是控制扬声器发声或控制报警灯闪烁等。在混合存储模块130的剩余容量过低时进行报警，提醒工作人员及时对存储数据进行转移或更换存储硬盘等，提高数据存储可靠性。

上述分布式计算系统，在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入SSD作为Spark计算的缓存层来补充内存的有限空间。使用比内存价格便宜很多的SSD作为内存的缓存，而不是直接扩展内存容量(投资很大)来支持Spark大数据量计算的需求，既可以加快I/O吞吐，同时解决内存空间不足以应对大数据量的局限，实现分布式计算系统的高性能处理能力。

本发明还提供了一种分布式计算系统的数据处理方法，如图3所示，包括以下步骤：

步骤S110：通过Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至混合存储模块中的SSD单元进行缓存。Spark平台模块接收到数据后，将数据发送至SSD单元进行缓存。在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入价格约只有内存价格十分之一的SSD代替HDD(HardDiskDrive，机械硬盘)作内存之外的缓存，让SSD和内存共同组成混合存储体系，提升存储空间利用率和处理效率。

Spark平台模块具体可包括多个执行单元，多个执行单元均连接SSD单元。通过多个执行单元分别进行数据存储和读取操作，提高数据处理速度，且确保操作可靠性。此外，混合存储模块还可包括文件系统API接口，SSD单元通过文件系统API接口与Spark平台模块连接，以进行数据传输。

在其中一个实施例中，步骤S110中通过Spark平台模块将处理得到的数据发送至混合存储模块中的SSD单元进行缓存具体为，Spark平台模块将数据发送至SSD单元后，以行列混合存储的ORCFile格式进行缓存。使用针对SSD硬件特性而优化的存储格式，对存储在SSD单元132上的数据采用行列混合式文件(ORC)结构进行存储，充分发挥SSD硬件特性，提升处理性能和压缩空间。大幅提升大数据系统处理的性能。

步骤S120：通过SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。SSD单元在缓存接入的数据后，将缓存的数据发送至存储层单元进行存储。

步骤S130：通过Spark平台模块接收查询指令，并经SSD单元从存储层单元获取与查询指令对应的数据后输出。Spark平台模块在接收到查询指令后，同样通过SSD单元从存储层单元获取对应数据。

在其中一个实施例中，分布式计算系统的数据处理方法还包括步骤140。

步骤140：通过容量监控模块对混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。预设阈值的具体取值可根据混合存储模块的容量大小决定，输出报警信息可以是控制扬声器发声或控制报警灯闪烁等。在混合存储模块的剩余容量过低时进行报警，提醒工作人员及时对存储数据进行转移或更换存储硬盘等，提高数据存储可靠性。

上述分布式计算系统的数据处理方法，在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入SSD作为Spark计算的缓存层来补充内存的有限空间。使用比内存价格便宜很多的SSD作为内存的缓存，而不是直接扩展内存容量(投资很大)来支持Spark大数据量计算的需求，既可以加快I/O吞吐，同时解决内存空间不足以应对大数据量的局限，实现分布式计算系统的高性能处理能力。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分布式计算系统，其特征在于，包括Spark平台模块和混合存储模块，所述混合存储模块包括SSD单元和存储层单元，所述SSD单元连接所述Spark平台模块，所述存储层单元连接所述SSD单元，

2.根据权利要求1所述的分布式计算系统，其特征在于，所述Spark平台模块包括多个执行单元，所述多个执行单元均连接所述SSD单元。

3.根据权利要求1所述的分布式计算系统，其特征在于，所述混合存储模块还包括文件系统API接口，所述SSD单元通过所述文件系统API接口与所述Spark平台模块连接。

4.根据权利要求1所述的分布式计算系统，其特征在于，所述Spark平台模块将数据发送至所述SSD单元后，以行列混合存储的ORCFile格式进行缓存。

5.根据权利要求1所述的分布式计算系统，其特征在于，还包括连接所述Spark平台模块的数据接收模块，所述数据接收模块用于接收数据并发送至所述Spark平台模块，以及接收所述查询指令发送至所述Spark平台模块，并输出所述Spark平台模块返回的数据。

6.根据权利要求1所述的分布式计算系统，其特征在于，还包括连接所述混合存储模块的容量监控模块，所述容量监控模块用于对所述混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。

7.一种分布式计算系统的数据处理方法，其特征在于，包括以下步骤：

通过Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至混合存储模块中的SSD单元进行缓存；

8.根据权利要求7所述的分布式计算系统的数据处理方法，其特征在于，通过Spark平台模块将处理得到的数据发送至混合存储模块中的SSD单元进行缓存具体为，所述Spark平台模块将数据发送至所述SSD单元后，以行列混合存储的ORCFile格式进行缓存。

9.根据权利要求7所述的分布式计算系统的数据处理方法，其特征在于，还包括以下步骤：

通过容量监控模块对所述混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。