WO2014176954A1

WO2014176954A1 - 分布式存储系统的数据的处理方法、装置及系统

Info

Publication number: WO2014176954A1
Application number: PCT/CN2014/074556
Authority: WO
Inventors: 郭斌; 陈正华; 韩银俊; 高洪; 程宁
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-10-11
Filing date: 2014-04-01
Publication date: 2014-11-06
Also published as: US10402391B2; EP3046307B1; EP3046307A1; EP3046307A4; CN104572649A; CN104572649B; US20160299820A1

Abstract

本发明提供了一种分布式存储系统的数据的处理方法、装置及系统，该方法包括：获取目标数据的第一模式结构和源数据的第二模式结构；根据上述第一模式结构和上述第二模式结构将上述源数据处理为上述第一模式结构的结构化数据。本发明解决了相关技术中分布式存储系统中数据模式结构描述不灵活的问题，具有提高数据模式结构描述灵活性从而提高数据处理效率的有益效果。

Description

分布式存储系统的数据的处理方法、装置及系统技术领域本发明涉及通信领域，具体而言，涉及一种分布式存储系统的数据的处理方法、装置及系统。背景技术云计算（Cloud Computing)是网格计算（Grid Computing ) 分布式计算（Distributed Computing )、并行计算（Parallel Computing )、效用计算（Utility Computing )、网络存储 (Network Storage Technologies ) 虚拟化 ( Virtualization) 负载均衡 (Load Balance) 等传统计算机技术和网络技术发展融合的产物。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的系统。分布式存储是云计算范畴中的一个领域，其作用是提供海量数据的分布式存储服务以及高速读写访问的能力。数据是有模式结构的，在关系型数据库中，数据的模式结构是数据库来维护的，但是在非关系型的数据存储系统中，通常不感知数据的模式结构。于是，在存储数据时，要根据模式结构将数据转换为二进制数据流，然后存入分布式存储系统中；读取数据时，从分布式存储系统中取出二进制数据流，要根据一定规则还原为可以使用的数据。以上，数据的转换和还原，通常也称之为数据的序列化和反序列化过程。在分布式的应用中，数据的写入者和数据的读取者可能不是同一个程序。如果数据模式结构永远不变，读取者随时都可以根据自己本地的数据模式结构正确的还原出写入者的数据。但通常随着程序的升级，数据的模式结构通常是要发生变化的。而分布式存储中往往是海量数据，难以短时间内全部读出并修改数据的模式结构；此外在某些场景中，在升级过程中需要保持业务不中断，也会同时出现不同版本的写入者和读取者。此时，数据的读取者如何还原出任意写入者的数据，是比较难以解决的关键问题。而能够还原任意写入者的数据的特性，通常称为模式自由（Schema-free 在相关技术方案中，实现模式自由通常有以下几种方法：方案一、数据的模式结构内部固定一个字段表示数据的版本，缺点是新版本的新增内容只能添在旧版本的尾部，读取者中要实现已知所有版本模式结构的还原方法；方案二、传统的标签长度值（Tag-Length-Value, 简称 TIN)法，依次记录数据模式结构各字段的标识符（Tag), 长度（Length), 二进制数据流（Value), 其缺点是表示不了复杂的数据结构，尤其是嵌套结构。方案三，自描述型表示方式，如 JAVA 脚本对象表示法（JAVA Script Object Notation, 简称 JSON)，优点是可以表示任意复杂的数据模式结构，缺点是它是解释型的数据描述方式，效率较差。针对相关技术中相关技术中分布式存储系统中数据模式结构描述不灵活的问题，目前尚未提出有效的解决方案。发明内容本发明实施例提供了一种分布式存储系统的数据的处理方法、装置及系统，以至少解决上述问题。根据本发明实施例的一个方面，提供了一种分布式存储系统的数据的处理方法，包括：获取目标数据的第一模式结构和源数据的第二模式结构；根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据。优选地，所述第一模式结构是对所述目标数据中的每个元素的模式结构的文本描述，所述第二模式结构是对所述源数据中的每个元素的模式结构的文本描述。优选地，所述第一模式结构的文本描述包括以下至少之一：所述目标数据中的每个元素的名称，所述目标数据中的所述每个元素的类型，所述目标数据中的所述每个元素的合法取值范围，所述目标数据中的所述每个元素的嵌套关系，所述目标数据中的各个所述每个元素的顺序；和 /或所述第二模式结构的文本描述包括以下至少之一：所述源数据中的每个元素的名称，所述源数据中的所述每个元素的类型，所述源数据中的所述每个元素的合法取值范围，所述源数据中的所述每个元素的嵌套关系，所述源数据中的各个所述每个元素的顺序。优选地，根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的所述结构化数据包括：判断所述第一模式结构和所述第二模式结构是否一致；当判断结果为一致时，按照所述第一模式结构或所述第二模式结构将所述源数据处理成所述结构化数据；当判断结果为不一致时，确定所述第一结构模式与所述第二结构模式的差异，并根据所述第一模式结构、所述第二模式结构和所述差异，将所述源数据处理成所述结构化数据。优选地，判断所述第一模式结构和所述第二模式结构是否一致包括：比较所述第一模式结构的第一标识号和所述第二模式结构的第二标识号；如果所述第一标识号与所述第二标识号一致，则所述第一模式结构与所述第二模式结构一致；如果所述第一标识号与所述第二标识号不一致，则所述第一模式结构与所述第二模式结构不一致；其中，所述第一标识号和所述第二标识号由分布式存储模式管理服务器统一分配。优选地，当向存储空间写入数据时，所述目标数据为所述存储空间支持的数据，所述源数据为待写入的数据；和 /或当从所述存储空间读取数据时，所述目标数据为读取所要得到的数据，所述源数据为所述存储空间中存储的数据。根据本发明实施例的另一方面，提供了一种分布式存储系统的数据的处理方法，包括：获取源数据的模式结构和所述模式结构的标识，其中，所述源数据为待写入的数据；根据所述模式结构将所述源数据写入存储空间，并将所述标识写入所述存储空间。优选地，所述模式结构是对所述源数据中的每个元素的模式结构的文本描述。优选地，所述文本描述包括以下至少之一：所述每个元素的名称，所述每个元素的类型，所述每个元素的合法取值范围，所述每个元素的嵌套关系，各个所述每个元素的顺序。优选地，获取所述源数据的模式结构和所述模式结构的标识包括：生成所述模式结构；向分布式存储模式管理服务器发送所述模式结构；接收所述分布式存储模式管理服务器根据所述模式结构返回的所述标识，其中，在所述分布式存储模式管理服务器在本地的现有模式结构中匹配到所述模式结构的情况下，所述标识为所匹配到的所述现有模式结构的标识，否则所述标识为新分配的标识。根据本发明实施例的又一方面，提供了一种分布式存储系统的数据的处理装置，包括：获取模块，设置为获取目标数据的第一模式结构和源数据的第二模式结构；还原模块，设置为根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据。优选地，所述还原模块还设置为判断所述第一模式结构和所述第二模式结构是否一致，当判断结果为一致时，按照所述第一模式结构或所述第二模式结构将所述源数据处理成所述结构化数据，当判断结果为不一致时，确定所述第一结构模式与所述第二结构模式的差异，并根据所述第一模式结构、所述第二模式结构和所述差异，将所述源数据处理成所述结构化数据。优选地，所述还原模块还设置为比较所述第一模式结构的第一标识号和所述第二模式结构的第二标识号，如果所述第一标识号与所述第二标识号一致，则所述第一模式结构与所述第二模式结构一致，如果所述第一标识号与所述第二标识号不一致，则所述第一模式结构与所述第二模式结构不一致，其中，所述第一标识号和所述第二标识号由分布式存储模式管理服务器统一分配。根据本发明实施例的又一方面，提供了一种分布式存储系统的数据的处理装置，包括：模式获取模块，设置为获取源数据的模式结构和所述模式结构的标识，其中，所述源数据为待写入的数据；写入模块，根据所述模式结构将所述源数据写入存储空间，并将所述标识写入所述存储空间。优选地，所述模式获取模块还设置为生成所述模式结构，向分布式存储模式管理服务器发送所述模式结构，接收所述分布式存储模式管理服务器根据所述模式结构返回的所述标识，其中，在所述分布式存储模式管理服务器在本地的现有模式结构中匹配到所述模式结构的情况下，所述标识为所匹配到的所述现有模式结构的标识，否则所述标识为新分配的标识。根据本发明实施例的又一方面，提供了一种分布式存储系统的数据的处理系统，包括：分布式存储数据存储服务器，设置为存储数据；分布式存储模式管理服务器，设置为管理所述数据的模式结构；上述第十四或十五项方案所述的装置，设置为根据所述模式结构向所述分布式存储模式管理服务器写入数据；上述第十一至十三项方案中任一项所述的装置，设置为根据所述模式结构从所述分布式存储模式管理服务器读取数据。通过本发明实施例，采用以下技术方案：获取目标数据的第一模式结构和源数据的第二模式结构，根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据，解决了相关技术中分布式存储系统中数据模式结构描述不灵活的问题，具有提高数据模式结构描述灵活性从而提高数据处理效率的有益效果。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是根据本发明实施例的分布式存储系统的数据的处理方法一的流程图；图 2是根据本发明实施例的分布式存储系统的数据的处理方法二的流程图；图 3是根据本发明实施例的分布式存储系统的数据的处理装置一的结构示意图；图 4是根据本发明实施例的分布式存储系统的数据的处理装置二的结构示意图；图 5是根据本发明实施例的分布式存储系统的数据的处理系统的结构示意图；图 6是根据本发明优选实施例的分布式存储系统的数据处理系统的结构示意图；图 7是根据本发明优选实施例的分布式存储系统的数据处理方法一的流程图；图 8是根据本发明优选实施例的分布式存储系统的数据处理方法二的流程图；图 9是根据本发明优选实施例的分布式存储系统的数据处理方法三的流程图；以及图 10是根据本发明优选实施例的分布式存储系统的数据处理方法四的流程图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明实施例提供了一种分布式存储系统的数据的处理方法，图 1是根据本发明实施例的分布式存储系统的数据的处理方法一的流程图，如图 1所示，该流程包括以下步骤：步骤 S102，获取目标数据的第一模式结构和源数据的第二模式结构。步骤 S104，根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据。通过上述步骤，解决了相关技术中分布式存储系统中数据模式结构描述不灵活的问题，具有提高数据模式结构描述灵活性从而提高数据处理效率的有益效果。在本发明实施例的一个优选实施方式中，所述第一模式结构是对所述目标数据中的每个元素的模式结构的文本描述，所述第二模式结构是对所述源数据中的每个元素的模式结构的文本描述。其中，所述第一模式结构的文本描述包括以下至少之一：所述目标数据中的每个元素的名称，所述目标数据中的所述每个元素的类型，所述目标数据中的所述每个元素的合法取值范围，所述目标数据中的所述每个元素的嵌套关系，所述目标数据中的各个所述每个元素的顺序；和 /或所述第二模式结构的文本描述包括以下至少之一：所述源数据中的每个元素的名称，所述源数据中的所述每个元素的类型，所述源数据中的所述每个元素的合法取值范围，所述源数据中的所述每个元素的嵌套关系，所述源数据中的各个所述每个元素的顺序。通过上述步骤，可以预先定义目标数据的模式结构，以实现数据模式自由。在本发明实施例的另一个优选实施方式中，根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的所述结构化数据可以包括：判断所述第一模式结构和所述第二模式结构是否一致；当判断结果为一致时，按照所述第一模式结构或所述第二模式结构将所述源数据处理成所述结构化数据；当判断结果为不一致时，确定所述第一结构模式与所述第二结构模式的差异，并根据所述第一模式结构、所述第二模式结构和所述差异，将所述源数据处理成所述结构化数据。通过上述步骤，不仅数据的模式结构描述更灵活，而且数据的读取效率也更高。在本发明实施例的另一个优选实施方式中，判断所述第一模式结构和所述第二模式结构是否一致可以包括：比较所述第一模式结构的第一标识号和所述第二模式结构的第二标识号；如果所述第一标识号与所述第二标识号一致，则所述第一模式结构与所述第二模式结构一致；如果所述第一标识号与所述第二标识号不一致，则所述第一模式结构与所述第二模式结构不一致；其中，所述第一标识号和所述第二标识号由分布式存储模式管理服务器统一分配。通过上述步骤，可以集中管理数据的模式结构，提高数据的处理效率。在本发明实施例的另一个优选实施方式中，当向存储空间写入数据时，所述目标数据为所述存储空间支持的数据，所述源数据为待写入的数据；和 /或当从所述存储空间读取数据时，所述目标数据为读取所要得到的数据，所述源数据为所述存储空间中存储的数据。本发明实施例还提供了一种分布式存储系统的数据的处理方法，图 2是根据本发明实施例的分布式存储系统的数据的处理方法二的流程图，如图 2,所示，该流程包括以下步骤：步骤 S202, 获取源数据的模式结构和所述模式结构的标识，其中，所述源数据为待写入的数据；步骤 S204, 根据所述模式结构将所述源数据写入存储空间，并将所述标识写入所述存储空间。优选地，所述模式结构是对所述源数据中的每个元素的模式结构的文本描述。优选地，所述文本描述包括以下至少之一：所述每个元素的名称，所述每个元素的类型，所述每个元素的合法取值范围，所述每个元素的嵌套关系，各个所述每个元素的顺序。优选地，获取所述源数据的模式结构和所述模式结构的标识包括：生成所述模式结构；向分布式存储模式管理服务器发送所述模式结构；接收所述分布式存储模式管理服务器根据所述模式结构返回的所述标识，其中，在所述分布式存储模式管理服务器在本地的现有模式结构中匹配到所述模式结构的情况下，所述标识为所匹配到的所述现有模式结构的标识，否则所述标识为新分配的标识。本发明实施例还提供了一种分布式存储系统的数据的处理装置，图 3是根据本发明实施例的分布式存储系统的数据的处理装置一的结构示意图，如图 3所示，该装置包括：获取模块 302，设置为获取目标数据的第一模式结构和源数据的第二模式结构；还原模块 304，设置为根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据。优选地，所述还原模块 304还设置为判断所述第一模式结构和所述第二模式结构是否一致，当判断结果为一致时，按照所述第一模式结构或所述第二模式结构将所述源数据处理成所述结构化数据，当判断结果为不一致时，确定所述第一结构模式与所述第二结构模式的差异，并根据所述第一模式结构、所述第二模式结构和所述差异，将所述源数据处理成所述结构化数据。优选地，所述还原模块 304还设置为比较所述第一模式结构的第一标识号和所述第二模式结构的第二标识号，如果所述第一标识号与所述第二标识号一致，则所述第一模式结构与所述第二模式结构一致，如果所述第一标识号与所述第二标识号不一致，则所述第一模式结构与所述第二模式结构不一致，其中，所述第一标识号和所述第二标识号由分布式存储模式管理服务器统一分配。本发明实施例还提供了一种分布式存储系统的数据的处理装置，图 4是根据本发明实施例的分布式存储系统的数据的处理装置二的结构示意图，如图 4所示，该装置包括：模式获取模块 402，设置为获取源数据的模式结构和所述模式结构的标识，其中，所述源数据为待写入的数据；写入模块 404，设置为根据所述模式结构将所述源数据写入存储空间，并将所述标识写入所述存储空间。优选地，所述模式获取模块 402还设置为生成所述模式结构，向分布式存储模式管理服务器发送所述模式结构，接收所述分布式存储模式管理服务器根据所述模式结构返回的所述标识，其中，在所述分布式存储模式管理服务器在本地的现有模式结构中匹配到所述模式结构的情况下，所述标识为所匹配到的所述现有模式结构的标识，否则所述标识为新分配的标识。本发明实施例还提供了一种分布式存储系统的数据的处理系统，图 5是根据本发明实施例的分布式存储系统的数据的处理系统的结构示意图，如图 5所示，该系统包括：分布式存储数据存储服务器 508，设置为存储数据；分布式存储模式管理服务器 506，设置为管理所述数据的模式结构；数据写入者 502，相当于上述实施例提供的分布式存储系统的数据的处理装置二，设置为根据所述模式结构向所述分布式存储模式管理服务器 508写入数据；数据读取者 504，相当于上述实施例提供的分布式存储系统的数据的处理装置一，设置为根据所述模式结构从所述分布式存储模式管理服务器读取数据。图 6是根据本发明优选实施例的分布式存储系统的数据处理系统的结构示意图，如图 6所示，该系统包括:数据写入者 502、数据读取者 504，以及分布式存储的 API606、分布式存储模式管理服务器 506、分布式存储数据存储服务器 508，其中，数据写入者 502和数据读取者 504通过分布式存储的 API606, 与分布式存储数据存储服务器 508 和分布式存储模式管理服务器 506进行交互。图 7是根据本发明优选实施例的分布式存储系统的数据处理方法一的流程图，本实施例以图 6所述的分布式存储系统的数据处理系统为架构，以数据写入者写入数据为例，如图 6、 7所示，该流程包括以下步骤：步骤 S702, 生成模式结构。在初始化阶段，数据写入者 502将需要使用的数据即待写入数据中的每个元素的模式结构按照一定语法描述为文本形式的模式定义即待写入数据的模式结构，该模式结构描述了以下至少之一：每个元素的名称、类型、合法的取值范围，以及元素的出现顺序、嵌套关系等。步骤 S704, 请求获取模式结构的标识号。数据写入者 502通过分布式存储的 API606将待写入数据的模式结构提交给分布式存储模式管理服务器 506，请求获取模式结构的标识号。步骤 S706，与本地模式结构相比较。分布式存储模式管理服务器 506将接收到的待写入数据的模式结构与本地维护的所有模式结构进行匹配，如果在本地没有匹配到相同的模式结构，则保存该模式结构，并新分配一个标识号；如果匹配到的相同的模式结构，则找出该模式结构之前分配的标识号。步骤 S708, 返回标识号。分布式存储模式管理服务器 506将标识号通过分布式存储的 API606返回给数据写入者 502。以上步骤 S702 708为初始化阶段。步骤 S710, 将结构化数据转换为二进制数据流。数据写入者 502调用分布式存储的 API606将待写入的结构化数据按照一定规则转换为二进制数据流。其中，所述规则中，按照模式结构的元素顺序，依次写入每个元素占用的字节数，以及元素的二进制表示形式。如果元素间有嵌套关系，以递归的方式进行转换。步骤 S712, 请求数据写入。数据写入者 502通过分布式存储的 API606向分布式存储数据存储服务器 508发送数据写入请求，将转换好的二进制数据流提交给分布式存储数据存储服务器 508。其中，数据写入请求中，携带二进制数据流存储所依据的模式结构的标识号。步骤 S714, 写入数据。分布式存储数据存储服务器 508保存二进制数据流和其标识号，并在完成存储后通过分布式存储的 API606通知数据写入者 502数据写入成功。图 8是根据本发明优选实施例的分布式存储系统的数据处理方法二的流程图，本实施例以图 6所述的分布式存储系统的数据处理系统为架构，以数据读取者读取数据为例，如图 6、 8所示，该流程包括以下步骤：步骤 S802, 生成第一模式结构。在初始化阶段，数据读取者 504将需要使用的数据即目标数据的每一个元素的模式结构按照一定语法描述为文本形式的模式定义，即第一模式结构，当然在其他的实施例中，模式定义也可以按照其他规则描述为其他形式。步骤 S804, 请求获取第一模式结构的标识号。数据读取者 504通过分布式存储的 API606将第一模式结构提交给分布式存储模式管理服务器 506; 步骤 S806, 与本地的现有模式结构相比较。分布式存储模式管理服务器 506将接收到的第一模式结构与本地维护的现有模式结构进行匹配，如果本地没有匹配到相同的模式结构，则分布式存储模式管理服务器 506新分配一个标识号给数据读取者 504; 如果本地匹配到相同的模式结构，则找出之前为该模式结构分配的标识号，并将该标识号分配给数据读取者 504。步骤 S808, 返回标识号。分布式存储模式管理服务器 506将标识号通过分布式存储的 API606返回给数据读取者。以上步骤 S802 S808为初始化阶段。步骤 S810, 数据读取请求。数据读取者 504通过分布式存储的 API606向分布式存储模式管理服务器 506发送数据读取请求。步骤 S812, 数据读取成功。分布式存储数据存储服务器 508返回二进制数据流及相应的模式结构的标识号给分布式存储的 API606。步骤 S814，在本地查找返回的标识号。分布式存储的 API606 在本地保存的标识号中查找返回的标识号。其中，本地保存的标识号是在步骤 S808中获取的标识号。如果在本地查找到了返回的标识号，则执行步骤 S816, 否则执行步骤 S818。步骤 S816，将二进制数据流还原为结构化数据。分布式存储的 API606 根据所确定的标识号对应的模式结构，将所读取的二进制数据流还原为结构化数据，返回给数据读取者 504。步骤 S818, 请求获取模式结构。分布式存储的 API606 向分布式存储模式管理服务器 506发送获取模式结构的请求，该请求中携带步骤 S812中获取的标识号。步骤 S820, 查找模式结构。分布式存储模式管理服务器 506接收到获取模式结构的请求后，根据该请求中携带的标识号，查找该标识号对应的模式结构。步骤 S822, 返回模式结构。分布式存储模式管理服务器 506 将查找到的模式结构返回给分布式存储的

API606。其中，查找到的模式结构对应的是第二模式结构，即数据写入者写入相应的源数据时所采用的模式结构。步骤 S824, 将二进制数据流还原为结构化数据。分布式存储的 API606根据分布式存储模式管理服务器 506返回的模式结构，将所读取的二进制数据流还原为结构化数据，并返回给数据读取者 504。本实施例的步骤 S816和步骤 S824中，如果二进制数据流对应的标识号与初始化阶段从分布式存储模式管理服务器 506获得的某个标识号一致，则说明本地原始的模式结构即第一模式结构与二进制数据流的写入者的模式结构即第二数据模式结构完全一致，此时可以按照第一模式结构将二进制数据流还原为结构化数据。具体方法可以是直接按照本地的元素顺序依次从二进制数据流中读取字节数，以及相应长度的二进制数据，映射到本地结构化数据的元素上，完成还原。如果元素间有嵌套关系，以递归的方式进行还原。如果步骤 S816和步骤 S824中二进制数据流对应的标识号与初始化阶段从分布式存储模式管理服务器 506获得的标识号不一致，分布式存储的 API606需要将本地原始的模式结构即第一模式结构与二进制数据流对应的模式定义即第二模式结构相比较，比较是否有元素的增加或缺失，元素的顺序是否一致等，然后按写入者的模式结构即第二数据的模式结构还原二进制数据流，并将其每个元素映射到本地的结构化数据的相同名称和类型的元素上，最终完成还原。如果第二模式结构中有本地不需要的字段可在分布式存储的 API606 处理时自动将其忽略；反之，第二模式结构中没有但本地需要的字段，分布式存储的 API606会自动填补默认值。比如，以一个典型的场景举例，在一个处理用户资料的程序的第一个版本中，用户资料数据的模式结构由姓名、电话、住址构成，并已经存储了一批数据；而在第二个版本中加了字段，用户数据的模式结构由姓名、年龄、电话、住址构成。因为模式结构（Schema) 发生了变化，如果不做兼容性处理，第一个版本和第二个版本无法正确识别对方的数据。而采用本实施例的技术方案后，第一个版本读取第二个版本生成的数据时，自动忽略新增的字段；而第二个版本读到第一个版本生成的数据时，自动将新增的字段用默认值填充，从而达到模式自由（Schema-free) 的效果。图 9是根据本发明优选实施例的分布式存储系统的数据处理方法三的流程图，本实施例以数据写入者为例，如图 9所示，该流程包括以下步骤：步骤 S902, 生成待写入数据的模式结构。根据一定的语法，将用到的数据中的每个元素的模式结构描述为文本，在这里称为模式定义即待写入数据的模式结构，该模式结构主要包括数据模式结构中每个元素的名称，类型，合法的取值范围，以及嵌套关系等。步骤 S904, 获取标识号。将待写入数据的模式结构提交给分布式存储系统的模式管理模块，得到分布式存储系统的模式管理模块分配给该模式结构的唯一标识号，相同的模式结构会返回相同的标识号。步骤 S906, 根据模式结构将待写入的数据转换为二进制流数据。根据待写入数据的模式结构，将待写入的数据转换为二进制数据流。步骤 S908, 写入数据。将待写入数据及其模式结构对应的唯一标识号存入分布式存储系统。图 10是根据本发明优选实施例的分布式存储系统的数据处理方法四的流程图，本实施例以数据读取者为例，如图 10所示，该流程包括以下步骤：步骤 S1002, 生成待读取数据的模式结构。根据一定的语法，将用到的数据即目标数据的每个元素的模式结构描述为文本的模式定义，即第一模式结构。具体的模式定义同上所述，此处不再赘述。步骤 S 1004，获取标识号。将第一模式结构提交给分布式存储系统模式管理模块，得到分布式存储系统模式管理模块分配给该第一模式结构的唯一标识号，相同的模式结构会返回相同的标识号。步骤 S 1006，读取数据。从分布式存储系统读取二进制数据流，以及该二进制数据流所对应的模式结构的唯一标识号。该标识号是数据写入时与二进制数据流同时写入的。步骤 S1008, 根据标识号还原所读取的数据。如果获取到的唯一标识号与本地的某个模式结构的标识号相同，则使用本地模式结构的数据还原方式，将读取的二进制数据流还原为结构化数据。如果获取到的唯一标识号与本地的模式结构的标识号都不相同，则从分布式存储系统模式管理模块获取这个标识号对应的模式结构即第二模式结构，将其与第一模式结构进行比较，并结合两个模式结构，对读取到的二进制数据流进行还原。从以上的描述中，可以看出，本发明实施例实现了如下技术效果：本发明实施例在非关系型的分布式存储系统中，通过采用模式结构集中管理，以及模式结构解析时比较等技术特征，解决了相关技术中在运行效率、数据表示等方面的局限性以及数据的模式自由问题，使得不同版本的结构化数据，即使模式结构不同也可以兼容，可以很好的满足分布式应用系统的在线升级等场景的需要。本发明实施例适合在分布式存储系统中实现数据的模式自由特性。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。工业实用性如上所述，本发明实施例提供的一种分布式存储系统的数据的处理方法、装置及系统具有以下有益效果：在非关系型的分布式存储系统中，通过采用模式结构集中管理，以及模式结构解析时比较等技术特征，解决了相关技术中在运行效率、数据表示等方面的局限性以及数据的模式自由问题，使得不同版本的结构化数据，即使模式结构不同也可以兼容，可以很好的满足分布式应用系统的在线升级等场景的需要。本发明实施例适合在分布式存储系统中实现数据的模式自由特性。

Claims

权利要求书

1. 一种分布式存储系统的数据的处理方法，包括：

获取目标数据的第一模式结构和源数据的第二模式结构；

根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据。

2. 根据权利要求 1所述的方法，其中，所述第一模式结构是对所述目标数据中的每个元素的模式结构的文本描述，所述第二模式结构是对所述源数据中的每个元素的模式结构的文本描述。

3. 根据权利要求 2所述的方法，其中，所述第一模式结构的文本描述包括以下至少之一：所述目标数据中的每个元素的名称，所述目标数据中的所述每个元素的类型，所述目标数据中的所述每个元素的合法取值范围，所述目标数据中的所述每个元素的嵌套关系，所述目标数据中的各个所述每个元素的顺序；和 /或

所述第二模式结构的文本描述包括以下至少之一：所述源数据中的每个元素的名称，所述源数据中的所述每个元素的类型，所述源数据中的所述每个元素的合法取值范围，所述源数据中的所述每个元素的嵌套关系，所述源数据中的各个所述每个元素的顺序。

4. 根据权利要求 1至 3中任一项所述的方法，其中，根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的所述结构化数据包括：

判断所述第一模式结构和所述第二模式结构是否一致；

当判断结果为一致时，按照所述第一模式结构或所述第二模式结构将所述源数据处理成所述结构化数据；

当判断结果为不一致时，确定所述第一结构模式与所述第二结构模式的差异，并根据所述第一模式结构、所述第二模式结构和所述差异，将所述源数据处理成所述结构化数据。

5. 根据权利要求 4所述的方法，其中，判断所述第一模式结构和所述第二模式结构是否一致包括：比较所述第一模式结构的第一标识号和所述第二模式结构的第二标识号；如果所述第一标识号与所述第二标识号一致，则所述第一模式结构与所述第二模式结构一致；

如果所述第一标识号与所述第二标识号不一致，则所述第一模式结构与所述第二模式结构不一致；

其中，所述第一标识号和所述第二标识号由分布式存储模式管理服务器统一分配。根据权利要求 1所述的方法，其中，

当向所述分布式存储系统的存储空间写入数据时，所述目标数据为所述存储空间支持的数据，所述源数据为待写入的数据；和 /或

当从所述存储空间读取数据时，所述目标数据为读取所要得到的数据，所述源数据为所述存储空间中存储的数据。一种分布式存储系统的数据的处理方法，包括：获取源数据的模式结构和所述模式结构的标识，其中，所述源数据为待写入的数据；根据所述模式结构将所述源数据写入存储空间，并将所述标识写入所述存储空间。根据权利要求 7所述的方法，其中，所述模式结构是对所述源数据中的每个元素的模式结构的文本描述。根据权利要求 8所述的方法，其中，所述文本描述包括以下至少之一：所述每个元素的名称，所述每个元素的类型，所述每个元素的合法取值范围，所述每个元素的嵌套关系，各个所述每个元素的顺序。根据权利要求 7至 9中任一项所述的方法，其中，获取所述源数据的模式结构和所述模式结构的标识包括：

生成所述模式结构；

向分布式存储模式管理服务器发送所述模式结构；

接收所述分布式存储模式管理服务器根据所述模式结构返回的所述标识，其中，在所述分布式存储模式管理服务器在本地的现有模式结构中匹配到所述模式结构的情况下，所述标识为所匹配到的所述现有模式结构的标识，否则所述标识为新分配的标识。

11. 一种分布式存储系统的数据的处理装置，包括：

获取模块，设置为获取目标数据的第一模式结构和源数据的第二模式结构；还原模块，设置为根据所述第一模式结构和所述第二模式结构将所述源数据处理为所述第一模式结构的结构化数据。

12. 根据权利要求 11所述的装置，其中，所述还原模块还设置为判断所述第一模式结构和所述第二模式结构是否一致，当判断结果为一致时，按照所述第一模式结构或所述第二模式结构将所述源数据处理成所述结构化数据，当判断结果为不一致时，确定所述第一结构模式与所述第二结构模式的差异，并根据所述第一模式结构、所述第二模式结构和所述差异，将所述源数据处理成所述结构化数据。

13. 根据权利要求 12所述的装置，其中，所述还原模块还设置为比较所述第一模式结构的第一标识号和所述第二模式结构的第二标识号，如果所述第一标识号与所述第二标识号一致，则所述第一模式结构与所述第二模式结构一致，如果所述第一标识号与所述第二标识号不一致，则所述第一模式结构与所述第二模式结构不一致，其中，所述第一标识号和所述第二标识号由分布式存储模式管理服务器统一分配。

14. 一种分布式存储系统的数据的处理装置，包括：

模式获取模块，设置为获取源数据的模式结构和所述模式结构的标识，其中，所述源数据为待写入的数据；

写入模块，设置为根据所述模式结构将所述源数据写入存储空间，并将所述标识写入所述存储空间。

15. 根据权利要求 14所述的装置，其中，所述模式获取模块还设置为生成所述模式结构，向分布式存储模式管理服务器发送所述模式结构，接收所述分布式存储模式管理服务器根据所述模式结构返回的所述标识，其中，在所述分布式存储模式管理服务器在本地的现有模式结构中匹配到所述模式结构的情况下，所述标识为所匹配到的所述现有模式结构的标识，否则所述标识为新分配的标识。

16. 一种分布式存储系统的数据的处理系统，包括：分布式存储数据存储服务器，设置为存储数据；

分布式存储模式管理服务器，设置为管理所述数据的模式结构；权利要求 14或 15所述的装置，设置为根据所述模式结构向所述分布式存储模式管理服务器写入数据；

权利要求 11至 13中任一项所述的装置，设置为根据所述模式结构从所述分布式存储模式管理服务器读取数据。