WO2019037093A1

WO2019037093A1 - 一种 Spark 分布式计算数据处理方法及系统

Info

Publication number: WO2019037093A1
Application number: PCT/CN2017/099083
Authority: WO
Inventors: 毛睿; 陆敏华; 陆克中; 朱金彬; 隋秀峰
Original assignee: 深圳大学
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2019-02-28

Abstract

一种Spark分布式计算数据处理方法，涉及计算机领域，该方法包括：通过任务调度器调度子任务，执行RDD分区数据存储任务，申请存储区空间；计算存储区内可驱逐空间及空间的大小，根据分区数据访问热度设置混合存储系统的迁移地址（S102）；读取指定存储区内已缓存数据并释放相应的内存空间，迁移分区数据到指定地址，修改迁移数据的持久化级别，反馈驱逐成功信号及驱逐空间信息（S103）。还提供一种Spark分布式计算系统，通过引入混合存储系统，并设计驱逐逻辑单元和缓存数据迁移单元，根据分区数据热度将数据迁移至SSD或HDD，而非直接将数据迁移至磁盘或踢除已缓存的数据，能够有效地缓解内存空间不足的压力，实现Spark性能的提升。

Description

一种 Spark 分布式计算数据处理方法及系统

技术领域

本发明涉及计算机领域，尤其涉及一种Spark分布式计算数据处理方法及系统。

背景技术

随着社会科学技术水平的提高，人们与对大规模数据处理的要求也越来越高，其中大数据应用对内存产生了强烈的依赖，充裕的内存是快速计算大数据的前提和保障。

Spark作为通用、快速、大规模数据处理引擎，已经成为大数据应用领域流行的计算框架，尤其在诸如图计算、机器学习等迭代计算的应用领域表现出色，随着数据集规模的不断扩大，由于空间的不足导致部分分区数据无法缓存至内存，或，已缓存至内存的数据需要迁移至磁盘，造成Spark性能的下降，针对该问题，Spark提出并设计了统一内存管理模型，当分区数据的缓存任务无法申请足够存储区空间时，主动迁移存储区内已缓存的数据至磁盘或直接剔除；统一内存管理模型具有一定的灵活性，通过迁移或剔除已缓存的数据，有效地缓解了Spark缓存大数据的需求与存储区空间不足的压力。

然而，由于已缓存的中间数据被剔除或迁移至磁盘，导致再次调用该数据时必须重新执行相应的计算任务来获取数据或读取磁盘获取缓存数据，所以Spark统一内存管理模型引发了Spark部分任务重复计算或磁盘读取的问题，对Spark性能产生恶劣的影响。

技术问题

本发明的主要目的在于提供一种Spark分布式计算数据处理方法及系统，旨在解决现有技术中Spark统一内存管理模型中Spark部分任务重复计算或磁盘读取的技术问题。

技术解决方案

为实现上述目的，本发明第一方面提供一种 Spark 分布式计算系统数据处理方法，所述方法包括：

在对用户已标识缓存的弹性分布式数据集 RDD 分区数据执行存储任务时，若向 Spark 的内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐所述内存存储区可驱逐缓存数据的命令；

计算所述内存存储区内可驱逐空间大小，若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求，则根据所述内存存储区可驱逐缓存数据访问热度设置基于 SSD 和 HDD 的混合存储系统的迁移地址；

读取并释放所述内存存储区内可驱逐缓存数据，迁移所述内存存储区内可驱逐缓存数据到所述迁移地址，修改所述内存存储区内可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息。

为实现上述目的，本发明第二方面还提供一种一种 Spark 分布式计算数据处理系统，所述系统包括：

申请存储模块，用于在对用户已标识缓存的弹性分布式数据集 RDD 分区数据执行存储任务时，若向 Spark 的内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐所述内存存储区缓存数据的命令；

计算分址模块，用于计算所述内存存储区内可驱逐空间大小，若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求，则根据所述内存存储区可驱逐缓存数据访问热度设置基于 SSD 和 HDD 的混合存储系统的迁移地址；

数据迁移模块，用于读取并释放所述内存存储区内可驱逐缓存数据，迁移所述内存存储区内可驱逐缓存数据到所述迁移地址，修改所述内存存储区内可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息。

有益效果

通过引入SSD与HDD构建混合存储系统，并设计驱逐逻辑单元和缓存数据迁移单元，根据热度灵活地将分区数据迁移至SSD或HDD，而非直接将已缓存的中间数据迁移至磁盘或踢除已缓存的数据，能够有效地缓解了Spark分区数据的缓存对存储区空间巨大需求与内存空间不足的压力，同时当调用分区数据时，由于混合存储系统的高速读写性能以及根据分区数据热度分开存储的特点，可以快速读取存储在混合存储系统中的不同访问热度的分区数据，实现Spark性能的提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中Spark分布式计算数据处理方法的流程示意图；

图2为本发明实施例中Spark分布式计算数据处理方法步骤101的细化步骤流程示意图；

图3为本发明为本发明实施例中Spark分布式计算数据处理方法步骤102的细化步骤流程示意图；

图4为本发明为本发明实施例中Spark分布式计算数据处理方法步骤304中细化步骤流程示意图；

图5为本发明为本发明实施例中Spark分布式计算数据处理方法步骤103中迁移数据步骤细化步骤流程示意图；

图6为本发明为本发明实施例中Spark分布式计算数据处理方法步骤103中修改数据持久化级别步骤细化步骤流程示意图；

图7为本发明实施例中本发明为本发明实施例中Spark分布式计算数据处理系统的功能模块示意图；

图8为本发明实施例中Spark分布式计算数据处理系统的申请存储模块601的细化功能模块的示意图；

图9为本发明实施例中Spark分布式计算数据处理系统的申请存储模块602的细化功能模块的示意图；

图10为本发明实施例中Spark分布式计算数据处理系统的申请存储模块603的细化功能模块的示意图。

本发明的实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例中Spark分布式计算数据处理方法的流程示意图，该处理方法包括：

S101、在对用户已标识缓存的弹性分布式数据集RDD分区数据执行存储任务时，若向Spark的内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐内存存储区缓存数据的命令。

S102、计算内存存储区内可驱逐空间大小，若驱逐后空间大小满足存储任务对内存存储区空间的要求，则根据内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址。

S103、读取并释放内存存储区内可驱逐缓存数据，迁移内存存储区内可驱逐缓存数据到迁移地址，修改内存存储区内可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息。

在本发明实施例中，通过引入SSD与HDD构建混合存储系统，并设计驱逐逻辑单元和缓存数据迁移单元，根据热度灵活地将分区数据迁移至SSD或HDD，而非直接将已缓存的中间数据迁移至磁盘或踢除已缓存的数据，能够有效地缓解了Spark分区数据的缓存对存储区空间巨大需求与内存空间不足的压力，同时当调用分区数据时，由于混合存储系统的高速读写性能以及根据分区数据热度分开存储的特点，可以快速读取存储在混合存储系统中的不同访问热度的分区数据，实现Spark性能的提升。

请参阅图2，图2为本发明实施例中Spark分布式计算数据处理方法S101的细化步骤流程示意图，该细化步骤包括：

S201、计算对RDD分区数据执行存储任务所占用内存存储区空间的大小，向Spark的内存存储区申请空间，并将存储任务所占用内存存储区空间的大小与内存存储区未占用空间作比较；

具体的，由Spark执行引擎通过任务调度器进行子任务的调度，在子任务运行时空间对用户已标识缓存的RDD分区数据执行存储任务，然后再尝试向Spark的内存存储区申请空间空间，若申请成功，则直接进行RDD分区数据的存储工作。

S202、若存储任务所占用内存存储区空间的大小大于内存存储区未占用空间，则向Spark的内存存储区申请空间失败，同时向驱逐逻辑单元发送驱逐内存存储区可驱逐缓存数据的命令以及发送存储任务需要占用内存存储区空间的大小。

请参阅图3，图3为本发明为本发明实施例中Spark分布式计算数据处理方法S102的细化步骤流程示意图，该细化步骤包括：

S301、驱逐逻辑单元接收到驱逐命令，同时驱逐逻辑单元向内存存储区发出由于RDD分区数据执行存储任务所需存储空间不足需要驱逐内存存储区空间的申请；

进一步的，当内存存储区接收到驱逐逻辑单元发出的申请后，判断内存存储区是否有可驱逐的空间并反馈给驱逐逻辑单元。

S302、若申请申请成功，则按近期最少使用算法LRU策略计算内存存储区内可驱逐空间大小；

其中，最少使用算法LRU策略即此算法根据内存存储区数据的历史访问热度记录来进行淘汰数据，其核心思想是：如果此数据最近被访问过，那么其将来被访问的几率也更高，根据访问几率判断内存存储区内可驱逐空间的大小。

S303、若内存存储区内可驱逐空间大小大于等于RDD分区数据执行存储任务需要占用空间大小。

S304、根据内存存储区可驱逐缓存数据的访问热度设置基于SSD和HDD的混合存储系统的迁移地址，并将内存存储区可驱逐缓存数据迁移信息和内存存储区可驱逐缓存数据迁移命令发送至缓存数据迁移单元。

S305、若内存存储区内可驱逐空间大小小于RDD分区数据执行存储任务需要占用空间大小。

S306、终止内存存储区可驱逐缓存数据迁移任务，并反馈驱逐内存存储区可驱逐缓存数据失败信号。

参阅图4，图4为本发明为本发明实施例中Spark分布式计算数据处理方法S304中细化步骤流程示意图，该细化步骤包括：

S3041、判断内存存储区可驱逐缓存数据访问热度。

S3042、若内存存储区可驱逐缓存数据访问热度在第一预置热度数值范围内，则读取SSD地址并将读取到的SSD地址设置为迁移地址；

其中，第一预置热度数值范围为内存存储区可驱逐缓存数据访问热度较高，具体的访问热度范围可由用户自由设置；

特别的，第一预置热度数值大于第二预置热度数值。

S3043、若内存存储区可驱逐缓存数据访问热度在第二预置热度数值范围内，则读取HDD地址并将读取到的HDD地址设置为迁移地址；

其中，第二预置热度数值范围为内存存储区可驱逐缓存数据访问热度较低，具体的访问热度范围可由用户自由设置。

请参阅图5，图5为本发明为本发明实施例中Spark分布式计算数据处理方法S103中迁移数据步骤细化步骤流程示意图，该细化步骤包括：

S401、缓存数据迁移单元接收到内存存储区可驱逐缓存数据迁移信息和内存存储区可驱逐缓存数据迁移命令后，将内存存储区可驱逐数据按迁移信息存储到SSD或HDD；

进一步的，缓存数据迁移单元接收到内存存储区可驱逐缓存数据迁移信息和内存存储区可驱逐缓存数据迁移命令后，会先读取指定内存存储区内已缓存数据并释放相应的内存空间，然后将内存存储区内已缓存数据按迁移地址存储到SSD或HDD；

其中，内存存储区可驱逐数据迁移信息具体包括：内存存储区可驱逐缓存数据地址、内存存储区可驱逐缓存数据空间大小以及迁移地址。

S402、向驱逐逻辑单元发送内存存储区可驱逐缓存数据迁移完成信号。

请参阅图6，图6为本发明为本发明实施例中Spark分布式计算数据处理方法S103中修改数据持久化级别步骤细化步骤流程示意图，该细化步骤包括：

S501、判断内存存储区可驱逐缓存数据迁移地址的类别。

S502、若内存存储区可驱逐缓存数据的迁移地址为SSD，修改内存存储区可驱逐缓存数据的持久化级别为SSD_ONLY。

S503、若内存存储区可驱逐缓存数据的迁移地址为HDD，修改内存存储区可驱逐缓存数据的持久化级别为HDD_ONLY。

S504、修改完成，反馈内存存储区可驱逐缓存数据驱逐成功信号以及内存存储区可驱逐数据迁移信息，以使得RDD分区数据进入内存存储区，完成存储任务。

请参阅图7，图7为本发明实施例中本发明为本发明实施例中Spark分布式计算数据处理系统的功能模块示意图，该功能模块包括：

申请存储模块601，用于在对用户已标识缓存的弹性分布式数据集RDD分区数据执行存储任务时，若向Spark的内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐内存存储区缓存数据的命令；

计算分址模块602，用于计算内存存储区内可驱逐空间大小，若驱逐后空间大小满足存储任务对内存存储区空间的要求，则根据内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址；

数据迁移模块603，用于读取并释放内存存储区内可驱逐缓存数据，迁移内存存储区内可驱逐缓存数据到迁移地址，修改内存存储区内可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息。

请参阅图8，图8为本发明实施例中Spark分布式计算数据处理系统的申请存储模块601的细化功能模块的示意图，该细化功能模块包括：

第一申请模块6011，用于计算对RDD分区数据执行存储任务所占用内存存储区空间的大小，向Spark内存存储区申请空间，并与内存存储区未占用空间作比较；

第一反馈模块6012，用于若存储任务所占用内存存储区空间的大小大于内存存储区未占用空间，则向Spark内存存储区申请空间失败，同时向驱逐逻辑单元发送驱逐内存存储区可驱逐缓存数据的命令以及发送存储任务需要占用内存存储区空间的大小。

请参阅图9，图9为本发明实施例中Spark分布式计算数据处理系统的申请存储模块602的细化功能模块的示意图，该细化功能模块包括：

第二申请模块6021，用于驱逐逻辑单元接收到驱逐命令，同时驱逐逻辑单元向内存存储区发出由于RDD分区数据执行存储任务所需存储空间不足需要驱逐空间的申请，若申请申请成功，则按近期最少使用算法LRU策略计算内存存储区内可驱逐空间大小；

设置迁移地址模块6022，用于若驱逐后内存存储区未占用空间大小大于等于RDD分区数据执行存储任务需要占用空间大小，根据内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址，并将内存存储区可驱逐缓存数据迁移信息和内存存储区可驱逐缓存数据迁移命令发送至缓存数据迁移单元；

第二反馈模块6023，用于若驱逐后内存存储区未占用空间大小小于RDD分区数据执行存储任务需要占用空间大小，则终止内存存储区可驱逐缓存数据迁移任务，并反馈驱逐内存存储区可驱逐缓存数据失败信号；

SSD迁移地址模块6024，用于若内存存储区可驱逐缓存数据访问热度在第一预置热度数值范围内，则读取SSD地址并将读取到的SSD地址设置为迁移地址；

HDD迁移地址模块6025，用于若内存存储区可驱逐缓存数据访问热度在第二预置热度数值范围内，则读取HDD地址并将读取到的HDD地址设置为迁移地址。

请参阅图10，图10为本发明实施例中Spark分布式计算数据处理系统的申请存储模块603的细化功能模块的示意图，该细化功能模块包括：

第三反馈模块6031，用于向驱逐逻辑单元发送内存存储区可驱逐缓存数据迁移完成信号；

SSD持久化级别模块6032，用于若内存存储区可驱逐缓存数据的迁移地址为SSD，修改内存存储区可驱逐缓存数据的持久化级别为SSD_ONLY；

HDD持久化级别模块6033，用于若内存存储区可驱逐缓存数据的迁移地址为HDD，修改内存存储区可驱逐缓存数据的持久化级别为HDD_ONLY；

第四反馈模块6034，用于反馈内存存储区可驱逐缓存数据驱逐成功信号以及内存存储区可驱逐数据迁移信息，以使得RDD分区数据进入内存存储区，完成存储任务。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种Spark分布式计算数据处理方法及系统的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

一种Spark分布式计算数据处理方法，其特征在于，所述方法包括：

在对用户已标识缓存的弹性分布式数据集（RDD，Resilient Distributed Datasets）分区数据执行存储任务时，若向Spark的内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐所述内存存储区可驱逐缓存数据的命令；

计算所述内存存储区内可驱逐空间大小，若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求，则根据所述内存存储区可驱逐缓存数据访问热度设置基于固态硬盘（SSD，Solid State Drives）和磁盘（HDD，Hard Disk Drive）的混合存储系统的迁移地址；

读取并释放所述内存存储区内可驱逐缓存数据，迁移所述内存存储区内可驱逐缓存数据到所述迁移地址，修改所述内存存储区内可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息。
根据权利要求1所述的方法，其特征在于，所述若向Spark内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐所述内存存储区可驱逐缓存数据的命令具体包括：

计算所述对RDD分区数据执行存储任务所占用所述内存存储区空间的大小，向所述Spark的内存存储区申请空间，并将所述存储任务所占用所述内存存储区空间的大小与所述内存存储区未占用空间作比较，若所述存储任务所占用所述内存存储区空间的大小大于所述内存存储区未占用空间，则向所述Spark的内存存储区申请空间失败，同时向所述驱逐逻辑单元发送驱逐所述内存存储区可驱逐缓存数据的命令以及发送所述存储任务需要占用所述内存存储区空间的大小。
根据权利要求1所述的方法，其特征在于，所述计算所述内存存储区内可驱逐空间大小，若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求，则根据所述内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址具体包括：

所述驱逐逻辑单元接收到驱逐命令，同时所述驱逐逻辑单元向所述内存存储区发出由于所述RDD分区数据执行存储任务所需存储空间不足需要驱逐空间的申请，若所述申请申请成功，则按近期最少使用算法LRU策略计算所述内存存储区内可驱逐空间大小；

若所述内存存储区内可驱逐空间大小大于等于所述RDD分区数据执行存储任务需要占用空间大小，根据所述内存存储区可驱逐缓存数据的访问热度设置基于SSD和HDD的混合存储系统的迁移地址，并将所述内存存储区可驱逐缓存数据迁移信息和所述内存存储区可驱逐缓存数据迁移命令发送至缓存数据迁移单元；

若所述内存存储区内可驱逐空间大小小于所述RDD分区数据执行存储任务需要占用空间大小，则终止所述内存存储区可驱逐缓存数据迁移任务，并反馈驱逐所述内存存储区可驱逐缓存数据失败信号。
根据权利要求3所述的方法，其特征在于所述根据所述内存存储区可驱逐缓存数据的访问热度设置基于SSD和HDD的混合存储系统的迁移地址具体包括：

若所述内存存储区可驱逐缓存数据访问热度在第一预置热度数值范围内，则读取SSD地址并将读取到的SSD地址设置为所述迁移地址；

若所述内存存储区可驱逐缓存数据访问热度在第二预置热度数值范围内，则读取HDD地址并将读取到的HDD地址设置为所述迁移地址；

所述在第一预置热度数值大于所述第二预置热度数值。
根据权利要求1所述的方法，其特征在于，所述读取并释放所述内存存储区内可驱逐缓存数据，迁移所述内存存储区内可驱逐缓存数据到所述迁移地址具体包括：

缓存数据迁移单元接收到所述内存存储区可驱逐缓存数据迁移信息和所述内存存储区可驱逐缓存数据迁移命令后，将所述内存存储区可驱逐数据按所述迁移信息存储到SSD或HDD，并向所述驱逐逻辑单元发送所述内存存储区可驱逐缓存数据迁移完成信号；

其中所述内存存储区可驱逐数据迁移信息具体包括：所述内存存储区可驱逐缓存数据地址、所述内存存储区可驱逐缓存数据空间大小以及所述迁移地址。
根据权利要求1所述的方法，其特征在于，所述修改所述内存存储区可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息具体包括：

若所述内存存储区可驱逐缓存数据的迁移地址为SSD，修改所述内存存储区可驱逐缓存数据的持久化级别为SSD_ONLY；

若所述内存存储区可驱逐缓存数据的迁移地址为HDD，修改所述内存存储区可驱逐缓存数据的持久化级别为HDD_ONLY；

修改完成，反馈所述内存存储区可驱逐缓存数据驱逐成功信号以及所述内存存储区可驱逐数据迁移信息，以使得所述RDD分区数据进入所述内存存储区，完成所述存储任务。
一种Spark分布式计算数据处理系统，其特征在于，所述系统包括：

申请存储模块，用于在对用户已标识缓存的弹性分布式数据集RDD分区数据执行存储任务时，若向Spark的内存存储区申请空间失败，则向驱逐逻辑单元发送驱逐所述内存存储区可驱逐缓存数据的命令；

计算分址模块，用于计算所述内存存储区内可驱逐空间大小，若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求，则根据所述内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址；

数据迁移模块，用于读取并释放所述内存存储区内可驱逐缓存数据，迁移所述内存存储区内可驱逐缓存数据到所述迁移地址，修改所述内存存储区内可驱逐缓存数据持久化级别，反馈驱逐成功信号及驱逐信息。
根据权利要求7所述的系统，其特征在于，所述申请存储模块包括：

第一申请模块，用于计算所述对RDD分区数据执行存储任务所占用所述内存存储区空间的大小，向所述Spark内存存储区申请空间，并与所述内存存储区未占用空间作比较；

第一反馈模块，用于若所述存储任务所占用所述内存存储区空间的大小大于所述内存存储区未占用空间，则向Spark内存存储区申请空间失败，同时向所述驱逐逻辑单元发送驱逐所述所述内存存储区可驱逐缓存数据的命令以及发送所述存储任务需要占用所述内存存储区空间的大小。
根据权利要求 7 所述的系统，其特征在于，所述计算分址模块包括 ;

第二申请模块，用于所述驱逐逻辑单元接收到驱逐命令，同时所述驱逐逻辑单元向所述内存存储区发出由于所述 RDD 分区数据执行存储任务所需存储空间不足需要驱逐空间的申请，若所述申请申请成功，则按近期最少使用算法 LRU 策略计算所述内存存储区内可驱逐空间大小；

设置迁移地址模块，用于若所述驱逐后所述内存存储区未占用空间大小大于等于所述 RDD 分区数据执行存储任务需要占用空间大小，根据所述内存存储区可驱逐缓存数据访问热度设置基于 SSD 和 HDD 的混合存储系统的迁移地址，并将所述内存存储区可驱逐缓存数据迁移信息和所述内存存储区可驱逐缓存数据迁移命令发送至缓存数据迁移单元；

第二反馈模块，用于若所述驱逐后所述内存存储区未占用空间大小小于所述 RDD 分区数据执行存储任务需要占用空间大小，则终止所述内存存储区可驱逐缓存数据迁移任务，并反馈驱逐所述内存存储区可驱逐缓存数据失败信号；

SSD 迁移地址模块，用于若所述内存存储区可驱逐缓存数据访问热度在第一预置热度数值范围内，则读取 SSD 地址并将读取到的 SSD 地址设置为所述迁移地址；

HDD 迁移地址模块，用于若所述内存存储区可驱逐缓存数据访问热度在第二预置热度数值范围内，则读取 HDD 地址并将读取到的 HDD 地址设置为所述迁移地址。
根据权利要求7所述的系统，其特征在于，所述数据迁移模块包括：

数据迁移模块，所述缓存数据迁移单元接收到所述内存存储区可驱逐缓存数据迁移信息和所述内存存储区可驱逐缓存数据迁移命令后，将所述内存存储区可驱逐数据按所述迁移信息存储到SSD或HDD；

第三反馈模块，用于向所述驱逐逻辑单元发送所述内存存储区可驱逐缓存数据迁移完成信号；

SSD持久化级别模块，用于若所述内存存储区可驱逐缓存数据的迁移地址为SSD，修改所述内存存储区可驱逐缓存数据的持久化级别为SSD_ONLY；

HDD持久化级别模块，用于若所述内存存储区可驱逐缓存数据的迁移地址为HDD，修改所述内存存储区可驱逐缓存数据的持久化级别为HDD_ONLY；

第四反馈模块，用于反馈所述内存存储区可驱逐缓存数据驱逐成功信号以及所述内存存储区可驱逐数据迁移信息，以使得所述RDD分区数据进入所述内存存储区，完成所述存储任务。