CN102467523A - 索引文件的建立方法与利用索引文件查询数据区块的方法 - Google Patents
索引文件的建立方法与利用索引文件查询数据区块的方法 Download PDFInfo
- Publication number
- CN102467523A CN102467523A CN2010105392504A CN201010539250A CN102467523A CN 102467523 A CN102467523 A CN 102467523A CN 2010105392504 A CN2010105392504 A CN 2010105392504A CN 201010539250 A CN201010539250 A CN 201010539250A CN 102467523 A CN102467523 A CN 102467523A
- Authority
- CN
- China
- Prior art keywords
- block
- index file
- file
- index
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000008676 import Effects 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000009434 installation Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种索引文件的建立方法与利用索引文件查询数据区块的方法,对输入文件进行切分后所产生的数据区块与相应所有数据区块的索引文件。建立索引文件包括:对输入文件进行切分程序,生成至少一数据区块与相应数据区块的描述信息,描述信息中记录数据区块相对于输入文件的偏移量与文件长度;将描述信息整合为第一索引文件;选取固定数量的数据区块,并将所选取出的数据区块定义为选择群组;记录选择群组中相对于输入文件的起始地址与结束地址至第二索引文件中;重复上述步骤,直至完成所有数据区块所相应的第一索引文件与第二索引文件为止。
Description
技术领域
本发明涉及一种文件的建立方法与其查询方法,特别涉及一种应用在重复数据删除程序中对索引文件的建立方法与查询方法。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使存储系统上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
为能达到数据完整保存的目的,所以在进行重复数据删除的过程中,会对输入文件进行切分的处理。输入文件在经过切分处理后会产生多个数据区块。为了能有效管理数据区块,所以在进行切分的过程中会利用索引文件来记录所有的数据区块的各项存储信息。例如数据区块的容量大小、在输入文件中的偏移量(offset)或数据区块在服务端中的存储位置。
假设一个数据区块为X Bytes,而对该数据区块需要利用N Bytes进行描述,所以数据区块的冗余度为N:X。随着,输入文件的文件长度越长时,索引文件的文件长度也会随着增加。为能加快索引文件的查询速度,一般而言会将索引文件直接载入内存中进行读取。但是内存的空间有限,如果将索引文件的部分内容存储于虚拟内存中,除了会降低存取速度外可能会产生击中失误(hit miss)的问题。
发明内容
鉴于以上的问题,本发明的主要目的在于提供一种建立索引文件的方法,应用在重复数据删除程序中,对输入文件进行切分后所产生的数据区块与相应数据区块一索引文件。
为达到上述目的,本发明所揭露的建立索引文件的方法包括下列步骤:对输入文件进行切分程序,生成至少一数据区块与相应数据区块的描述信息,描述信息中记录数据区块相对于输入文件的偏移量与文件长度;将描述信息整合为第一索引文件;选取固定数量的数据区块,并将所选取出的数据区块定义为选择群组;记录选择群组中相对于输入文件的起始地址与结束地址至第二索引文件中;重复上述步骤,直至完成所有数据区块所相应的第一索引文件与第二索引文件为止。
为配合上述建立索引文件,因此本发明还提出一种配合索引文件对数据区块查询方法。
为达到上述目的,本发明所揭露的一种数据区块查询方法包括以下步骤:将第二索引文件载入内存单元;输入查询请求;从查询请求所解析出欲查询的数据区块,与数据区块的偏移量与文件长度;根据数据区块的偏移量与文件长度对第二索引文件进行查询所相应的选择群组;根据所找出的选择群组,将第一索引文件中的相应部分读入内存单元进行查询,并返回查询结果;此时在内存单元中的第一索引文件部分并不会立即清除,而是作为計算机的高速缓存(cache)应对下一次读取,如果下一次读取也命中到此选择群组区间内,则直接到第一索引文件读入内存单元的部分进行检索,否则再将选择群组对应的第一索引文件部分读入内存单元进行检索。
本发明在运行重复数据删除程序时,产生相应于输入文件的索引文件。通过本发明的二个索引文件,可以降低读入内存单元的索引文件的容量,节省内存占用,并提高查找相应数据区块的效率。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为本发明的建立索引文件的流程示意图;
图2A为本发明切分数据区块的示意图;
图2B为本发明第一索引文件的示意图;
图2C为本发明第二索引文件的示意图;
图3为本发明的数据区块查询流程示意图。
其中,附图标记
210 输入文件
220 数据区块
230 第一索引文件
231 选择群组
240 第二索引文件
具体实施方式
下面结合附图对本发明的结构原理和工作原理作具体的描述:
本发明应用于具有处理重复数据删除程序的计算机,例如:个人电脑、笔记型电脑、服务器或应用在客户端与服务端架构中。请参考图1所示,其为本发明的建立索引文件的流程示意图。本发明的建立索引文件的处理过程包括以下步骤:
步骤S110:对输入文件进行切分程序,生成至少一数据区块与相应数据区块的描述信息,描述信息中记录数据区块相对于输入文件的偏移量与文件长度;
步骤S120:将描述信息整合为第一索引文件;
步骤S130:选取固定数量的数据区块,并将所选取出的数据区块定义为选择群组;
步骤S140:记录选择群组中相对于第一索引文件的起始地址的偏移量与结束地址的偏移量至第二索引文件中;以及
步骤S150:重复上述步骤,直至完成所有数据区块所相应的第一索引文件与第二索引文件为止。
将输入文件210载入计算机装置中,并对输入文件210进行切分程序。输入文件210在经过切分程序后生成至少一数据区块220与相应数据区块220的描述信息。而描述信息中记录数据区块220相对于输入文件210的偏移量(offset)与文件长度(length)。请参考图2A所示,其为本发明切分数据区块的示意图。
接着,将所有数据区块的描述信息依序排列,用以将所有的描述信息整合为第一索引文件230。请参考图2B所示,其为本发明第一索引文件的示意图。
再从输入文件210中选取固定数量的数据区块220,并将所选取出的数据区块220定义为选择群组221。举例来说,若一次选取三个数据区块为一个单位,则会从输入文件210的第一数据区块、第二数据区块与第三数据区块依序选出,并将第一数据区块、第二数据区块与第三数据区块定义为选择群组221。同理,下次选取数据区块则是从输入文件210的第四数据区块开始进行选取。
当选择群组221被选出时,本发明是记录选择群组221中相对于第一索引文件230的起始地址的偏移量与结束地址的偏移量至第二索引文件240中。承接上述例子,当第一数据区块、第二数据区块与第三数据区块被选出作为选择群组221时,在第二索引文件240中会记录第一数据区块在第一索引文件230的起始偏移量与第三数据区块在输入文件210的结尾的偏移量。请参考图2C所示,其为本发明第二索引文件240的示意图。重复步骤S120至步骤S140,直至所有数据区块的第一索引文件230与第二索引文件240完成为止。
请参考图3所示,其为本发明的数据区块查询流程示意图。本发明的数据区块查询包括以下步骤:
步骤S310:将第二索引文件载入内存单元;
步骤S320:输入查询请求;
步骤S330:从查询请求所解析出欲查询的数据区块,与数据区块的偏移量与文件长度;
步骤S340:根据数据区块的偏移量与文件长度对第二索引文件进行查询所相应的选择群组;以及
步骤S350:根据所找出的选择群组对第一索引文件进行查询,并返回查询结果。
首先,计算机装置将第二索引文件240载入内存单元(RAM)中储存。而第一索引文件230可以先被储存在硬盘或是内存单元中。计算机装置在接获查询请求后,计算机装置从查询请求所解析出欲查询的数据区块与数据区块的偏移量与文件长度。
根据数据区块的偏移量与文件长度对第二索引文件240进行查询所相应的选择群组221,并将定位到所查询到的选择群组221。接着,再把该选择群组221对应于第一索引文件230的数据区块的偏移量与文件长度写入内存单元中。计算机装置再从内存单元中的部分片段的第一索引文件230内查找相应的数据区块。并且在计算机装置查询结束后,会在内存单元中保留本次写入内存单元的部分片段的第一索引文件230。使得计算机装置于下一次查询时,将其视为查询的一部分,用以降低存取时所花费的时间。
本发明在运行重复数据删除程序时,产生相应于输入文件210的索引文件。通过本发明的两个索引文件,可以降低读入内存单元的索引文件的容量,节省内存占用,并提高查找相应数据区块的效率。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (5)
1.一种索引文件的建立方法,应用在一重复数据删除程序中,对一输入文件进行切分后所产生的多笔数据区块与相应该些数据区块的一索引文件,其特征在于,该索引文件的建立方法包括以下步骤:
对该输入文件进行一切分程序,生成该数据区块与相应该数据区块的一描述信息;
将该些描述信息整合为一第一索引文件;
选取固定数量的该些数据区块,并将所选取出的该些数据区块定义为一选择群组;
记录该选择群组中相对于该描述信息;以及
重复上述步骤,直至完成所有该些数据区块所相应的该第一索引文件与一第二索引文件为止。
2.根据权利要求1所述的索引文件的建立方法,其特征在于,该描述信息中记录该数据区块相对于该输入文件的一偏移量与一文件长度。
3.根据权利要求2所述的索引文件的建立方法,其特征在于,在记录该选择群组中相对于该描述信息的步骤中还包括:
记录该选择群组中相对于该第一索引文件的一起始地址的该偏移量与一结束地址的该偏移量至该第二索引文件中。
4.一种利用索引文件查询数据区块的方法,其特征在于,包括以下步骤:
对该输入文件进行一切分程序,生成至少一数据区块与相应该数据区块的一描述信息;
将该些描述信息整合为一第一索引文件;
选取固定数量的该些数据区块,并将所选取出的该些数据区块定义为一选择群组;
记录该选择群组中相对于该描述信息;
重复上述步骤,直至完成所有该些数据区块所相应的该第一索引文件与一第二索引文件为止;
将该第二索引文件载入一内存单元;
输入一查询请求;
从该查询请求所解析出欲查询的该数据区块,与该数据区块的一偏移量与一文件长度;
根据该数据区块的该偏移量与该文件长度对该第二索引文件进行查询所相应的该选择群组;以及
根据所找出的该选择群组对该第一索引文件进行查询,并返回一查询结果。
5.根据权利要求4所述的利用索引文件查询数据区块的方法,其特征在于,在从该查询请求所解析出欲查询的该数据区块后还包括:
将该选择群组所对应的部分该第一索引文件载入该内存单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105392504A CN102467523A (zh) | 2010-11-03 | 2010-11-03 | 索引文件的建立方法与利用索引文件查询数据区块的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105392504A CN102467523A (zh) | 2010-11-03 | 2010-11-03 | 索引文件的建立方法与利用索引文件查询数据区块的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102467523A true CN102467523A (zh) | 2012-05-23 |
Family
ID=46071166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105392504A Pending CN102467523A (zh) | 2010-11-03 | 2010-11-03 | 索引文件的建立方法与利用索引文件查询数据区块的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102467523A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150397A (zh) * | 2013-03-26 | 2013-06-12 | 北京经纬恒润科技有限公司 | 一种数据索引创建方法、数据检索方法和系统 |
CN103617260A (zh) * | 2013-11-29 | 2014-03-05 | 华为技术有限公司 | 重复数据删除的索引生成方法及装置 |
WO2014089760A1 (zh) * | 2012-12-11 | 2014-06-19 | 华为技术有限公司 | 一种数据压缩方法及装置 |
CN104268091A (zh) * | 2014-09-19 | 2015-01-07 | 深圳市心讯网络科技有限公司 | 文件储存方法和文件修改方法 |
CN106227678A (zh) * | 2016-07-21 | 2016-12-14 | 北京四维益友信息技术有限公司 | 一种虚拟存储介质的存取方法 |
CN109558411A (zh) * | 2017-09-26 | 2019-04-02 | 浙江华信区块链科技服务有限公司 | 一种基于区块链数据的下链同步方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178693A (zh) * | 2007-12-14 | 2008-05-14 | 沈阳东软软件股份有限公司 | 一种数据缓存方法及系统 |
CN101551807A (zh) * | 2009-05-07 | 2009-10-07 | 山东中创软件商用中间件股份有限公司 | 文件数据库多级索引技术 |
-
2010
- 2010-11-03 CN CN2010105392504A patent/CN102467523A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178693A (zh) * | 2007-12-14 | 2008-05-14 | 沈阳东软软件股份有限公司 | 一种数据缓存方法及系统 |
CN101551807A (zh) * | 2009-05-07 | 2009-10-07 | 山东中创软件商用中间件股份有限公司 | 文件数据库多级索引技术 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014089760A1 (zh) * | 2012-12-11 | 2014-06-19 | 华为技术有限公司 | 一种数据压缩方法及装置 |
CN104145263A (zh) * | 2012-12-11 | 2014-11-12 | 华为技术有限公司 | 一种数据压缩方法及装置 |
CN104145263B (zh) * | 2012-12-11 | 2017-07-25 | 华为技术有限公司 | 一种数据压缩方法及装置 |
CN103150397A (zh) * | 2013-03-26 | 2013-06-12 | 北京经纬恒润科技有限公司 | 一种数据索引创建方法、数据检索方法和系统 |
CN103150397B (zh) * | 2013-03-26 | 2016-03-16 | 北京经纬恒润科技有限公司 | 一种数据索引创建方法、数据检索方法和系统 |
CN103617260A (zh) * | 2013-11-29 | 2014-03-05 | 华为技术有限公司 | 重复数据删除的索引生成方法及装置 |
CN103617260B (zh) * | 2013-11-29 | 2017-01-11 | 华为技术有限公司 | 重复数据删除的索引生成方法及装置 |
CN104268091A (zh) * | 2014-09-19 | 2015-01-07 | 深圳市心讯网络科技有限公司 | 文件储存方法和文件修改方法 |
CN104268091B (zh) * | 2014-09-19 | 2016-02-24 | 盛杰 | 文件储存方法和文件修改方法 |
CN106227678A (zh) * | 2016-07-21 | 2016-12-14 | 北京四维益友信息技术有限公司 | 一种虚拟存储介质的存取方法 |
CN106227678B (zh) * | 2016-07-21 | 2018-12-28 | 北京四维益友信息技术有限公司 | 一种虚拟存储介质的存取方法 |
CN109558411A (zh) * | 2017-09-26 | 2019-04-02 | 浙江华信区块链科技服务有限公司 | 一种基于区块链数据的下链同步方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319654B (zh) | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 | |
CN102467572B (zh) | 支持重复数据删除程序的数据区块查询方法 | |
US8271462B2 (en) | Method for creating a index of the data blocks | |
CN101510209B (zh) | 实现实时检索的方法、系统和服务器 | |
CN107481762B (zh) | 一种固态硬盘的trim处理方法及装置 | |
CN103984640B (zh) | 实现数据预取方法及装置 | |
CN102799598A (zh) | 重复数据删除的数据复原方法 | |
CN102467523A (zh) | 索引文件的建立方法与利用索引文件查询数据区块的方法 | |
CN106874348B (zh) | 文件存储和索引方法、装置及读取文件的方法 | |
CN102779180A (zh) | 数据存储系统的操作处理方法,数据存储系统 | |
KR20090026296A (ko) | 예측 데이터 로더 | |
CN107958079A (zh) | 聚合文件删除方法、系统、装置及可读存储介质 | |
CN103399823B (zh) | 业务数据的存储方法、设备和系统 | |
CN104156380A (zh) | 一种分布式存储器哈希索引方法及系统 | |
CN102479250A (zh) | 一种嵌入式浏览器磁盘缓存方法 | |
CN110888837B (zh) | 对象存储小文件归并方法及装置 | |
CN102479245A (zh) | 数据区块的切分方法 | |
CN102469142A (zh) | 重复数据删除程序的数据传输方法 | |
CN110532201A (zh) | 一种元数据处理方法及装置 | |
CN104462388B (zh) | 一种基于级联式存储介质的冗余数据清理方法 | |
CN102467458A (zh) | 建立数据区块的索引方法 | |
CN107135662A (zh) | 一种差异数据备份方法、存储系统和差异数据备份装置 | |
CN111008183B (zh) | 一种用于业务风控日志数据的存储方法及系统 | |
CN105389268A (zh) | 资料储存系统及其运作方法 | |
CN113641681B (zh) | 一种空间自适应的海量数据查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120523 |