CN116680237B - 一种基于云存储的文件整理方法、系统和存储介质 - Google Patents
一种基于云存储的文件整理方法、系统和存储介质 Download PDFInfo
- Publication number
- CN116680237B CN116680237B CN202310668819.4A CN202310668819A CN116680237B CN 116680237 B CN116680237 B CN 116680237B CN 202310668819 A CN202310668819 A CN 202310668819A CN 116680237 B CN116680237 B CN 116680237B
- Authority
- CN
- China
- Prior art keywords
- file
- files
- cloud storage
- storage module
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012217 deletion Methods 0.000 claims abstract description 18
- 230000037430 deletion Effects 0.000 claims abstract description 18
- 238000004321 preservation Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于云存储的文件整理方法、系统和存储介质,属于数据处理技术领域,包括步骤S1:第一云存储模块将文件划分为第一数据类型、第二数据类型和第三数据类型;步骤S2:第一云存储模块基于分类关键字筛选名称中包含分类关键字的文件,将其转移至对应分类文件夹,定位名称中未包含分类关键字的未转移文件,获取各个未转移文件之间的关联度,基于关联度对其进行整理处理;步骤S3:对比第二数据类型文件中同种格式文件的相似度,将相似度大于第一阈值的文件进行合并处理;步骤S4:将第三数据类型中的文件划分高价值文件和低价值文件,将低价值文件的存储信息填入至建议删除表内。通过本发明可以对云存储文件进行细致分类整理。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于云存储的文件整理方法、系统和存储介质。
背景技术
云存储利用分布式计算和虚拟资源管理等技术,通过网络将分散的ICT资源集中起来形成共享的资源池,并以动态按需和可度量的方式向用户提供服务,用户可以使用各种形式的终端通过网络获取ICT资源服务,从而实现设计资料便捷的在不同设备间共享互通。在云存储大规模应用前,设计人员一般会使用移动设备进行资料转移的工作,不同设备间的资料转移工作较复杂且容易出错。在建立云存储平台后,通过将资料直接上传至云存储平台中,使得设计资料可便捷的在不同设备间共享互通,从而不再需要通过人工进行复杂的资料转移。
然而,由于云存储平台中存储的资料是由多部门、多终端进行管理和存储,因此其中会存在大量的文件,这就需要对文件进行整理,为此,现有技术中提出如下整理方式,如中国专利申请“CN104618445A”公开了一种基于云存储空间的文件整理方法和装置,该方法首先接收客户端发送的文件整理请求,查询一个或多个文件是否具有关联的第一特征目录信,当查询到第一特征目录信息时,判断终端标识是否与第一特征目录信息对应的场景标识匹配;当终端标识与第一特征目录信息对应的场景标识匹配时,将一个或多个文件移动至第一特征目录信息对应的目录中,从而通过场景标识识别不同的场景,按照场景实现了文件的自动整理;通过上述方式只能针对特定格式的文件进行处理,当需要对文件进行更细致的分类存储时,通过上述技术方案显然无法做到。
发明内容
为解决上述问题,本发明提供了一种基于云存储的文件整理方法、系统和存储介质,以实现自动对云存储文件进行细致分类整理。
为了达到上述的发明目的,本发明提出一种基于云存储的文件整理方法,包括:
步骤S1:建立云存储网络,所述云存储网络包括用户终端和第一云存储模块,所述用户终端创建文件后,将所述文件传输至所述第一云存储模块内,所述第一云存储模块生成所述文件的存储信息,所述存储信息包括所述文件的名称、格式、占用空间、存储地址和创建人,每隔预设的整理时间,所述第一云存储模块基于所述文件占用空间的大小将其划分为第一数据类型、第二数据类型和第三数据类型;
步骤S2:所述第一云存储模块识别已经创建的分类文件夹,所述分类文件夹的名称中包括分类关键字,基于所述分类关键字筛选名称中包含所述分类关键字的所述文件,将其转移至对应所述分类文件夹内,分类完成后,定位名称中未包含所述分类关键字的所述文件,将其定义为未转移文件,获取各个所述未转移文件的历史操作记录,基于所述历史操作记录获取各个所述未转移文件之间的关联度,基于所述关联度对所述未转移文件进行整理处理;
步骤S3:对比所述第二数据类型的所述文件中,同种格式所述文件的相似度,将所述相似度大于第一阈值的所述文件进行合并处理;
步骤S4:将所述第三数据类型中的所述文件划分高价值文件和低价值文件,生成建议删除表,将所述低价值文件的所述存储信息填入至所述建议删除表内。
进一步的,所述步骤S2中,基于所述关联度对所述未转移文件进行整理处理包括以下步骤:
步骤S21:构建文件操作图谱,所述文件操作图谱包括多条沿横向延伸的文件保存线,每条所述文件保存线对应一个所述文件名称,所述文件保存线的起点和终点分别为所述文件在所述第一云存储模块内的创建时间和删除时间,基于所述文件的所述历史操作记录,在各个所述文件保存线之间绘制第一文件关联线;
步骤S22:基于所述文件保存线和所述第一文件关联线生成每个所述未转移文件的创建拓扑图,所述创建拓扑图包括主文件节点和子文件节点,所述主文件节点保存所述未转移文件的所述存储信息,所述子文件节点保存与所述未转移文件相关联所述文件的所述存储信息,所述主文件节点和所述子文件节点、所述子文件节点和所述子文件节点之间通过第二文件关联线连接,所述第二文件关联线内存储有所连接两个节点的所述关联度,所述关联度基于第一公式计算,所述第一公式为:其中,λ为所述关联度,P为数据流出节点对应所述文件包含的总数据量,p为数据流出节点对应所述文件流出的数据量;
步骤S23:基于第二公式计算所述创建拓扑图内各个所述主文件节点与各个所述子文件节点之间的关联分值η,所述第二公式为:η=λ1×λ2×…×λi,其中,λi为所述主文件节点节点与所述子文件节点连接路径上、第i个所述第二文件关联线内存储的所述关联度,设置第二阈值,选取所述创建拓扑图内与所述主文件节点所述关联分值最大的所述子文件节点,若其之间的所述关联分值大于所述第二阈值,则将所述主文件节点对应的所述未转移文件,划分至所述子文件节点对应所述文件所在的所述分类文件夹内。
进一步的,所述步骤S3中,将所述文件进行合并处理包括以下步骤:
步骤S31:若两个所述文件的所述相似度大于所述第一阈值,则分别将两个所述文件定义为第一文件和第二文件;
步骤S32:所述云存储网络包括第二云存储模块,在所述第一云存储模块中保留所述第一文件和所述第二文件,并将所述第一文件和所述第二文件合并为第三文件,所述用户终端自动下载所述第三文件后,将其上传至所述第二云存储模块,同时将所述第一云存储模块中的所述第三文件删除。
进一步的,所述步骤S4中,划分所述高价值文件和所述低价值文件包括以下步骤:
步骤S41:设置至少一个搜索关键字,筛选所述第三数据类型中、包含所述搜索关键字的所述文件,若搜索到至少两个所述文件,则继续执行步骤S42,若仅搜索到一个所述文件,则将搜索到的所述文件划分为所述高价值文件;
步骤S42:基于第三公式计算所述文件的保留价值δ,所述第三公式为:其中,αn为所述文件第n次流出的数据量,βj为所述文件第j次流入的数据量,W预先设定的基值,设定第三阈值,若所述文件的所述保留价值大于所述第三阈值,则将所述文件划分为所述高价值文件,否则将所述文件划分为所述低价值文件。
进一步的,所述用户终端向所述第一云存储模块发送所述文件之前,还包括以下步骤:
所述用户终端创建所述文件后,向所述第一云存储模块发送测试数据测试其网络状态,若所述网络状态正常,所述用户终端将所述文件发送至所述第一云存储模块,若所述网络状态异常,所述用户终端将所述文件发送至所述第二云存储模块,当所述第一云存储模块的所述网络状态恢复正常时,所述第二云存储模块将自身存储的所述文件发送至所述用户终端,所述用户终端再将所述文件发送至所述第一云存储模块;
所述第一云存储模块接收并存储所述文件后,所述第二云存储模块删除对应的所述文件。
进一步的,将所述文件发送至所述第二云存储模块包括以下步骤:
所述文件上传至所述第一云存储模块后,记录在所述第一云存储模块中的存储地址,若所述文件在所述第一云存储模块中的存储地址改变后,所述第一云存储模块生成更新信息返回至所述用户终端,所述用户终端更新所述文件的存储地址;
所述用户终端将所述文件传输至所述第二云储存模块时,所述第二云存储模块将所述文件存储至与所述第一云存储模块相同的存储地址。
本发明还提供了一种基于云存储的文件整理系统,该系统用于实现上述所述的一种基于云存储的文件整理方法,该系统主要包括:
用户终端,所述用户终端用户创建文件,并将所述文件上传至所述第一云存储模块内;
第一云存储模块,用于存储所述用户终端上传的所述文件,并记录所述文件的存储信息,所述存储信息包括所述文件的名称、格式、占用空间、存储地址和创建人,所述第一云存储模块包括第一分类模块、整理模块、合并模块和第二分类模块,所述第一分类模块每隔预设的整理时间,所述第一云存储模块基于所述文件占用空间的大小将其划分为第一数据类型、第二数据类型和第三数据类型,所述整理模块识别已经创建的分类文件夹,所述分类文件夹的名称中包括分类关键字,基于所述分类关键字筛选名称中包含所述分类关键字的所述文件,将其转移至对应所述分类文件夹内,分类完成后,定位名称中未包含所述分类关键字的所述文件,将其定义为未转移文件,获取各个所述未转移文件的历史操作记录,基于所述历史操作记录获取各个所述未转移文件之间的关联度,基于所述关联度对所述未转移文件进行整理处理,所述合并模块对比所述第二数据类型的所述文件中,同种格式所述文件的相似度,将所述相似度大于第一阈值的所述文件进行合并处理,所述第二分类模块,将所述第三数据类型中的所述文件划分高价值文件和低价值文件,生成建议删除表,将所述低价值文件的所述存储信息填入至所述建议删除表内。
本发明还提供一种计算机存储介质,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行上述所述的一种基于云存储的文件整理方法。
与现有技术相比,本发明的有益效果至少如下所述:
本发明中的第一云存储模块可以根据上传文件的存储信息自动将其分类对应的文件内,从而实现对文件的初步整理,在此基础上,第一云存储模块每隔整理时间对其存储的文件进行整理,从而阶段性的对其存储空间进行优化,在进行整理时,首先基于文件名称或包含的标识信息进行移动,从而实现文件的快速识别整理,之后针对剩余的文件,获取文件的历史操作记录,从而获得各个文件的关联关系,根据文件之间的关联关系对文件其进行移动,使得即便文件名称或标识信息中没有分类文件夹中的关键词,文件也能够被分类至对应的文件夹内。
本发明的第一云存储模块基于文件的大小将其划分为第一数据类型、第二数据类型和第三数据类型,针对第二数据类型的文件采用合并方式处理,针对第三数据类型的文件采用生成建议删除表,使得用户可以便捷查找并删除价值较低且占用空间较大的文件,从而实现对其存储空间的优化。
附图说明
图1为本发明一种基于云存储的文件整理方法步骤流程图;
图2为本发明文件操作图谱的原理示意图;
图3为本发明创建拓扑图的原理示意图;
图4为本发明一种基于云存储的文件整理系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,一种基于云存储的文件整理方法,包括:
步骤S1:建立云存储网络,云存储网络包括用户终端和第一云存储模块,用户终端创建文件后,将文件传输至第一云存储模块内,第一云存储模块生成文件的存储信息,存储信息包括文件的名称、格式、占用空间、存储地址和创建人,每隔预设的整理时间,第一云存储模块基于文件占用空间的大小将其划分为第一数据类型、第二数据类型和第三数据类型。
具体的,用户终端包括移动终端和PC终端;用户终端创建文件的方式包括新建、复制和剪切,文件的格式包括文档格式,例如docx、xlsx、pptx,或者图纸格式,例如dwg和stp等。用户终端在创建文件后,可以手动将文件上传至第一云存储模块的指定存储路径内,也可以在文件内标注标签,录入对文件内容的描述信息,以及文件需要存储的位置,用户终端基于标签自动将文件上传至第一云存储模块对应的存储路径。第一云存储模块每隔整理时间,如一个月,自动识别其内部存储的文件,基于文件占用空间的大小将其分类为第一数据类型、第二数据类型和第三数据类型,在本实施例中,第一数据类型为占用空间0-10KB的文件,第二数据类型为占用空间10KB-10M的数据,第三数据类型为占用空间大于10M的数据。
步骤S2:第一云存储模块识别已经创建的分类文件夹,分类文件夹的名称中包括分类关键字,基于分类关键字筛选名称中包含分类关键字的文件,将其转移至对应分类文件夹内,分类完成后,定位名称中未包含分类关键字的文件,将其定义为未转移文件,获取各个未转移文件的历史操作记录,基于历史操作记录获取各个未转移文件之间的关联度,基于关联度对未转移文件进行整理处理。
分类文件夹为事先在第一云存储模块内创建的文件夹,每个分类文件夹的名称里均包括分类关键字,例如分类文件夹的名称为设备A故障台账,分类关键字为设备A故障,那么第一云存储模块就在其内部检索文件名称或者文件标签包括设备A故障的关键字,例如文件名称为4月份设备A故障统计表,若其不在设备A故障台账的分类文件夹里,则将其自动移动至该文件夹内;之后,获取未包含分类关键字的文件,此种文件无法根据名称或描述对其进行分类至对应的文件夹,因此需要获取该种文件的历史操作记录,确定该文件中的数据来源于哪些文件,或者该文件基于哪个文件复制得来的,从而根据上述信息将文件移动至对应的分类文件夹,具体获取及移动方式在之后进行描述,在本实施例中,历史操作记录包括对文件或文件内容的复制和剪切。
步骤S3:对比第二数据类型的文件中,同种格式文件的相似度,将相似度大于第一阈值的文件进行合并处理。
这里只对比第二数据类型文件的原因是,文件体积在0-10KB文件存储的信息一般较少;而体积在10KB-10M之间文档格式的文件一般会存储大量的信息,若对比的两个文件具有较高的相似度,也就表明两者之间存在较多的信息相同,仅有少部分信息不同,因此可以将其进行合并。
步骤S4:将第三数据类型中的文件划分高价值文件和低价值文件,生成建议删除表,将低价值文件的存储信息填入至建议删除表内。
针对大于10M的文件,由于其占用空间较大,若第一云存储模块内存在较多的大体积文件,就会占用其内部大部分存储空间,在这种情况下,即便是删除了大量第一数据类型和第二数据类型的文件,也无法较为明显的增加第一云存储模块的空闲空间,因此本发明获得第三数据类型的文件后,将其进一步划分为高价值文件和低价值文件,然后建立建议删除表,将低价值文件的信息填入其中,从而对低价值文件进行汇总,方便使用者进行筛选删除。高价值文件和低价值文件的划分方式在之后进行描述。
本发明中的第一云存储模块可以根据上传文件的存储信息自动将其分类对应的文件内,从而实现对文件的初步整理,在此基础上,第一云存储模块每隔整理时间对其存储的文件进行整理,从而阶段性的对其存储空间进行优化,在进行整理时,首先基于文件名称或包含的标识信息进行移动,从而实现文件的快速识别整理,之后针对剩余的文件,获取文件的历史操作记录,从而获得各个文件的关联关系,根据文件之间的关联关系对文件其进行移动,使得即便文件名称或标识信息中没有分类文件夹中的关键词,文件也能够被分类至对应的文件夹内。
本发明的第一云存储模块基于文件的大小将其划分为第一数据类型、第二数据类型和第三数据类型,针对第二数据类型的文件采用合并方式处理,针对第三数据类型的文件采用生成建议删除表,使得用户可以便捷的删除价值较低且占用空间较大的文件,从而实现对其存储空间的优化。
尤为注意的是,通过本发明的技术方案,实现了对云存储文件进行细致分类整理。
步骤S2中,基于关联度对未转移文件进行整理处理包括以下步骤。
步骤S21:构建文件操作图谱,文件操作图谱包括多条沿横向延伸的文件保存线,每条文件保存线对应一个文件名称,文件保存线的起点和终点分别为文件在第一云存储模块内的创建时间和删除时间,基于文件的历史操作记录,在各个文件保存线之间绘制第一文件关联线。
如图2所示,图2中有6条文件保存线,分别对应文件A1、A2、A3、A4、A5和A6,在文件A1的文件保存线中,其创建时间为t1,删除时间为t2,图中的箭头直线为文件关联线为数据流动方向,例如文件A1中的内容在t9时刻被复制到文件A5中,在过了一段时间达到时间t2时,文件A1被删除;又例如文件A6在时间t7被创建,但在时间为t8时,文件A5被创建,且文件A8的数据流向t5时同步被删除,表明A5是由A6剪切创建,另外,文件保存线上的举矩形方框,表明在该时间文件被修改;本发明通过文件操作图谱图,以图形的方式记录各个文件的历史操作记录,既可以向使用者直观展现文件之间的衍生关系,而且还便于查看文件在何时被创建,何时被删除,并且通过文件删除和创建时间,使用者可以得知文件是被删除还是被剪切而发生位置的转移,从而提醒使用者寻找被剪切的文件,而不必再次去创建,大大了提升工作效率。
步骤S22:基于文件保存线和第一文件关联线生成每个未转移文件的创建拓扑图,创建拓扑图包括主文件节点和子文件节点,主文件节点保存未转移文件的存储信息,子文件节点保存与未转移文件相关联文件的存储信息,主文件节点和子文件节点、子文件节点和子文件节点之间通过第二文件关联线连接,第二文件关联线内存储有所连接两个节点的关联度,关联度基于第一公式计算,第一公式为:其中,λ为关联度,P为数据流出节点对应文件包含的总数据量,p为数据流出节点对应文件流出的数据量。
当文件数量较多、文件间关系复杂时,使用者仅通过文件操作拓扑图难以得知某个文件与其他文件之间的关系,因此,本发明在文件操作拓扑图的基础上生产文件的创建拓扑图;具体的,由于存在关联的文件之间使用文件关联线连接,因此,当使用者想要得知文件A3与其他文件之间的关联关系时,可以使用例如鼠标指针点击文件操作拓扑图中的A3,则文件A3基于指向其的箭头自动关联对应的文件,在本实施例中为文件A2和文件A4,之后,文件A2和文件A4继续向前关联,文件A4继续关联文件A5,重复该过程,直至不再有文件关联。之后,基于上述关联结果生成并展现文件A3的创建拓扑图,如图3所示,从图3中明显看出文件A3与其他文件的关联关系,在图3中,文件A3为主文件节点,其余为子文件节点,两个节点之间通过第二关联线连接,第二关联线内存储有两个节点之间的关联度,文件的关联度通过第一公式计算,例如,文件A1占用空间为100KB,其中有86KB的数据由A1流入至A5,也即从文件A1中复制了86KB的数据到文件A5,那么A1与A5的关联度为86/100=0.86,表明文件A5包含文件A1中86%的信息,通过计算两个节点的关联度可以获得两个文件的关联程度,关联度越大,两个文件包含的信息量越相近。
步骤S23:基于第二公式计算创建拓扑图内各个主文件节点与各个子文件节点之间的关联分值η,第二公式为:η=λ1×λ2×…×λi,其中,λi为主文件节点节点与子文件节点连接路径上、第i个第二文件关联线内存储的关联度,设置第二阈值,选取创建拓扑图内与主文件节点关联分值最大的子文件节点,若其之间的关联分值大于第二阈值,则将主文件节点对应的未转移文件,划分至子文件节点对应文件所在的分类文件夹内。
例如,文件A3未被划分至分类文件内,文件A3与文件A4之间的关联度为0.95,文件A4与文件A5之间的关联度为0.46,那么通过第二公式计算得出,文件A3与文件A5的关联分值为0.95*0.46=0.437,最后通过计算,得出文件A3与文件A4之间的关联分值最大,为0.95,若第二阈值设置为0.8,则可将文件A3可以被划分至与文件2同一个文件夹内,从而实现对文件的自动整理划分。
在本实施例中,步骤S3中,将文件进行合并处理包括以下步骤:
步骤S31:若两个文件的相似度大于第一阈值,则分别将两个文件定义为第一文件和第二文件。
具体的,对比两个文件相似度的方法可以将两个文件中的数据抽出进行对比,例如对比的是两个EXCEL表格,则将两个表格中的标题、每个标题存储的数据抽出进行对比,若对比的是word文档,则抽出两个文档中的文字,然后基于语义模型进行相似度的对比,又或者可以哈希值进行两个文件的相似度对比,基于具体对比细节均为现有技术,此处不再赘述;在获得两个文件的相似度后,例如96%,若第一阈值为95%,则相似度大于第一阈值,将两个文件划分为第一文件和第二文件。
步骤S32:云存储网络包括第二云存储模块,在第一云存储模块中保留第一文件和第二文件,并将第一文件和第二文件合并为第三文件,用户终端自动下载第三文件后,将其上传至第二云存储模块,同时将第一云存储模块中的第三文件删除。
云存储网络包括第二云存储模块,在第一云存储模块中保留第一文件和第二文件,并将第一文件和第二文件合并为第三文件,用户终端自动下载第三文件后,将其上传至第二云存储模块,同时将第一云存储模块中的第三文件删除。
第一云存储模块和第二云存储模块基于不同的服务器搭建,第一云存储模块和第二云存储模块是相互独立的。第二云存储模块的其他具体应用在之后进行描述;在云存储网络包括第二云存储模块的情况下,第一云存储模块合并第一文件和第二文件中的内容,具体的合并方式为,将两个文件内容中没有互相覆盖的位置直接合并,例如一个Excel表在单元格A1有数据,另一个Excel表在单元格A2有数据,则直接将两个单元格内容合并到一个表格内;而对应存在互相覆盖的位置,获取修改时间较晚的文件,将保留该位置的内容并覆盖中另一个文件中,例如两个Excel表在单元格A1均有数据,但第二个Excel表修改时间较晚,则将其A1表格中数据覆盖到第一个表格中进行合并。
在获得第三文件后,由于将其单独上传至第二云存储模块进行保存,后期使用者可以快速确认第三文件由哪两个文件合并生成,从从而确认其有效性,若有效,则可以删除第一云存储模块中的第一文件和第二文件,如认为合并无效,则由于在第一云存储模块中保留了第一文件和第二文件,并不会造成数据的意外丢失。
步骤S4中,划分高价值文件和低价值文件包括以下步骤:
步骤S41:设置至少一个搜索关键字,筛选第三数据类型中、包含搜索关键字的文件,若搜索到至少两个文件,则继续执行步骤S42,若仅搜索到一个文件,则将搜索到的文件划分为高价值文件。
例如,设置搜索关键字为变电站三维,若基于该关键字仅搜索到名称为变电站三维图纸的文件,则表明第一云存储模块中仅有一个该文件,则将该文件划分为高价值文件;若搜索到名称分别为变电站三维模型和变电站三维图的文件,则继续执行步骤S42。
步骤S42:基于第三公式计算文件的保留价值δ,第三公式为:其中,αn为文件第n次流出的数据量,βj为文件第j次流入的数据量,W预先设定的基值,设定第三阈值,若文件的保留价值大于第三阈值,则将文件划分为高价值文件,否则将文件划分为低价值文件。
在第三公式,流出数据是指,从本文件中复制并粘贴至另一个文件中的数据,流入数据是指,从另一个文件中复制并粘贴至本文件中的数据,通过第三公式可以看出,若某个文件中的数据频繁大量被粘贴至其他文件,以及其它文件中的内容本频繁复制到本文件中,则代表本文件即为重要,因此将其设置为高价值文件,另外,W的值可以设置为20M,第三阈值可以设置为1。
用户终端向第一云存储模块发送文件之前,还包括以下步骤:
用户终端创建文件后,向第一云存储模块发送测试数据测试其网络状态,若网络状态正常,用户终端将文件发送至第一云存储模块,若网络状态异常,用户终端将文件发送至第二云存储模块,当第一云存储模块的网络状态恢复正常时,第二云存储模块将自身存储的文件发送至用户终端,用户终端再将文件发送至第一云存储模块;
第一云存储模块接收并存储文件后,第二云存储模块删除对应的文件。
用户终端通过向第一云存储模块发送测试数据,可确定两者之间的网络连接状态,若网络连接正常,则用户终端正常向第一云存储模块存储文件。若网络连接状态异常,则为了保证文件的安全性,将其发送至第二云存储模块,从而可以保存该时间点的文件;在第一云存储模块的网络状态恢复正常后,由于第一云存储模块与第二云存储模块相互独立,因此第二云存储模块将文件发送至用户终端,再由用户终端发送至第一云存储模块内;相互独立的优点是两个不会发生数据交互,这样即便第一云存储模块被网络病毒感染,也不会影响第二云存储模块。
将文件发送至第二云存储模块包括以下步骤:
文件上传至第一云存储模块后,记录在第一云存储模块中的存储地址,若文件在第一云存储模块中的存储地址改变后,第一云存储模块生成更新信息返回至用户终端,用户终端更新文件的存储地址;
用户终端将文件传输至第二云储存模块时,第二云存储模块将文件存储至与第一云存储模块相同的存储地址。
具体的,若文件的旧版本已经在第一云存储模块存储后,记录文件的存储地址,当用户终端需要上传文件新版本,该新版本与旧版本有同样的存储位置,则在网络状态异常时,将文件新版本存储至与第一云存储模块中,旧版本一致的存储地址,后续方便用户终端基于存储地址直接进行覆盖;另外,当文件在第一云存储模块中的存储地址更新时,同样将其反馈至用户终端,使得用户终端后续在将文件上传至第二云存储模块时,文件在第二云存储模块中的位置与第一云存储模块中一致;因此,通过此步骤使得文件在第二云存储模块中的地址与第一云存储模块中的相同,从而便于使用者快速检索、查找和覆盖文件。
如图4所示,本发明还提供了一种基于云存储的文件整理系统,该系统用于实现上述的一种基于云存储的文件整理方法,该系统主要包括:
用户终端,用户终端用户创建文件,并将文件上传至第一云存储模块内;
第一云存储模块,用于存储用户终端上传的文件,并记录文件的存储信息,存储信息包括文件的名称、格式、占用空间、存储地址和创建人,第一云存储模块包括第一分类模块、整理模块、合并模块和第二分类模块,第一分类模块每隔预设的整理时间,第一云存储模块基于文件占用空间的大小将其划分为第一数据类型、第二数据类型和第三数据类型,整理模块识别已经创建的分类文件夹,分类文件夹的名称中包括分类关键字,基于分类关键字筛选名称中包含分类关键字的文件,将其转移至对应分类文件夹内,分类完成后,定位名称中未包含分类关键字的文件,将其定义为未转移文件,获取各个未转移文件的历史操作记录,基于历史操作记录获取各个未转移文件之间的关联度,基于关联度对未转移文件进行整理处理,合并模块对比第二数据类型的文件中,同种格式文件的相似度,将相似度大于第一阈值的文件进行合并处理,第二分类模块,将第三数据类型中的文件划分高价值文件和低价值文件,生成建议删除表,将低价值文件的存储信息填入至建议删除表内。
本发明还提供一种计算机存储介质,计算机存储介质存储有程序指令,其中,在程序指令运行时控制计算机存储介质所在设备执行上述的一种基于云存储的文件整理方法。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于云存储的文件整理方法,其特征在于,包括:
步骤S1:建立云存储网络,所述云存储网络包括用户终端和第一云存储模块,所述用户终端创建文件后,将所述文件传输至所述第一云存储模块内,所述第一云存储模块生成所述文件的存储信息,所述存储信息包括所述文件的名称、格式、占用空间、存储地址和创建人,每隔预设的整理时间,所述第一云存储模块基于所述文件占用空间的大小将其划分为第一数据类型、第二数据类型和第三数据类型;
步骤S2:所述第一云存储模块识别已经创建的分类文件夹,所述分类文件夹的名称中包括分类关键字,基于所述分类关键字筛选名称中包含所述分类关键字的所述文件,将其转移至对应所述分类文件夹内,分类完成后,定位名称中未包含所述分类关键字的所述文件,将其定义为未转移文件,获取各个所述未转移文件的历史操作记录,基于所述历史操作记录获取各个所述未转移文件之间的关联度,基于所述关联度对所述未转移文件进行整理处理;
步骤S3:对比所述第二数据类型的所述文件中,同种格式所述文件的相似度,将所述相似度大于第一阈值的所述文件进行合并处理;
步骤S4:将所述第三数据类型中的所述文件划分高价值文件和低价值文件,生成建议删除表,将所述低价值文件的所述存储信息填入至所述建议删除表内;
所述步骤S2中,基于所述关联度对所述未转移文件进行整理处理包括以下步骤:
步骤S21:构建文件操作图谱,所述文件操作图谱包括多条沿横向延伸的文件保存线,每条所述文件保存线对应一个所述文件名称,所述文件保存线的起点和终点分别为所述文件在所述第一云存储模块内的创建时间和删除时间,基于所述文件的所述历史操作记录,在各个所述文件保存线之间绘制第一文件关联线;
步骤S22:基于所述文件保存线和所述第一文件关联线生成每个所述未转移文件的创建拓扑图,所述创建拓扑图包括主文件节点和子文件节点,所述主文件节点保存所述未转移文件的所述存储信息,所述子文件节点保存与所述未转移文件相关联所述文件的所述存储信息,所述主文件节点和所述子文件节点、所述子文件节点和所述子文件节点之间通过第二文件关联线连接,所述第二文件关联线内存储有所连接两个节点的所述关联度,所述关联度基于第一公式计算,所述第一公式为:其中,λ为所述关联度,P为数据流出节点对应所述文件包含的总数据量,p为数据流出节点对应所述文件流出的数据量;
步骤S23:基于第二公式计算所述创建拓扑图内各个所述主文件节点与各个所述子文件节点之间的关联分值η,所述第二公式为:η=λ1×λ2×…×λi,其中,λi为所述主文件节点与所述子文件节点连接路径上、第i个所述第二文件关联线内存储的所述关联度,设置第二阈值,选取所述创建拓扑图内与所述主文件节点所述关联分值最大的所述子文件节点,若其之间的所述关联分值大于所述第二阈值,则将所述主文件节点对应的所述未转移文件,划分至所述子文件节点对应所述文件所在的所述分类文件夹内。
2.根据权利要求1所述的一种基于云存储的文件整理方法,其特征在于,所述步骤S3中,将所述文件进行合并处理包括以下步骤:
步骤S31:若两个所述文件的所述相似度大于所述第一阈值,则分别将两个所述文件定义为第一文件和第二文件;
步骤S32:所述云存储网络包括第二云存储模块,在所述第一云存储模块中保留所述第一文件和所述第二文件,并将所述第一文件和所述第二文件合并为第三文件,所述用户终端自动下载所述第三文件后,将其上传至所述第二云存储模块,同时将所述第一云存储模块中的所述第三文件删除。
3.根据权利要求2所述的一种基于云存储的文件整理方法,其特征在于,所述步骤S4中,划分所述高价值文件和所述低价值文件包括以下步骤:
步骤S41:设置至少一个搜索关键字,筛选所述第三数据类型中、包含所述搜索关键字的所述文件,若搜索到至少两个所述文件,则继续执行步骤S42,若仅搜索到一个所述文件,则将搜索到的所述文件划分为所述高价值文件;
步骤S42:基于第三公式计算所述文件的保留价值δ,所述第三公式为:其中,αn为所述文件第n次流出的数据量,βj为所述文件第j次流入的数据量,W预先设定的基值,设定第三阈值,若所述文件的所述保留价值大于所述第三阈值,则将所述文件划分为所述高价值文件,否则将所述文件划分为所述低价值文件。
4.根据权利要求2或3所述的一种基于云存储的文件整理方法,其特征在于,所述用户终端向所述第一云存储模块发送所述文件之前,还包括以下步骤:
所述用户终端创建所述文件后,向所述第一云存储模块发送测试数据测试其网络状态,若所述网络状态正常,所述用户终端将所述文件发送至所述第一云存储模块,若所述网络状态异常,所述用户终端将所述文件发送至所述第二云存储模块,当所述第一云存储模块的所述网络状态恢复正常时,所述第二云存储模块将自身存储的所述文件发送至所述用户终端,所述用户终端再将所述文件发送至所述第一云存储模块;
所述第一云存储模块接收并存储所述文件后,所述第二云存储模块删除对应的所述文件。
5.根据权利要求4所述的一种基于云存储的文件整理方法,其特征在于,将所述文件发送至所述第二云存储模块包括以下步骤:
所述文件上传至所述第一云存储模块后,记录在所述第一云存储模块中的存储地址,若所述文件在所述第一云存储模块中的存储地址改变后,所述第一云存储模块生成更新信息返回至所述用户终端,所述用户终端更新所述文件的存储地址;
所述用户终端将所述文件传输至所述第二云存储模块时,所述第二云存储模块将所述文件存储至与所述第一云存储模块相同的存储地址。
6.一种基于云存储的文件整理系统,用于实现如权利要求1-5任一项所述的一种基于云存储的文件整理方法,其特征在于,包括:
用户终端,所述用户终端用户创建文件,并将所述文件上传至所述第一云存储模块内;
第一云存储模块,用于存储所述用户终端上传的所述文件,并记录所述文件的存储信息,所述存储信息包括所述文件的名称、格式、占用空间、存储地址和创建人,所述第一云存储模块包括第一分类模块、整理模块、合并模块和第二分类模块,所述第一分类模块每隔预设的整理时间,所述第一云存储模块基于所述文件占用空间的大小将其划分为第一数据类型、第二数据类型和第三数据类型,所述整理模块识别已经创建的分类文件夹,所述分类文件夹的名称中包括分类关键字,基于所述分类关键字筛选名称中包含所述分类关键字的所述文件,将其转移至对应所述分类文件夹内,分类完成后,定位名称中未包含所述分类关键字的所述文件,将其定义为未转移文件,获取各个所述未转移文件的历史操作记录,基于所述历史操作记录获取各个所述未转移文件之间的关联度,基于所述关联度对所述未转移文件进行整理处理,整理处理时,构建文件操作图谱,所述文件操作图谱包括多条沿横向延伸的文件保存线,每条所述文件保存线对应一个所述文件名称,所述文件保存线的起点和终点分别为所述文件在所述第一云存储模块内的创建时间和删除时间,基于所述文件的所述历史操作记录,在各个所述文件保存线之间绘制第一文件关联线,基于所述文件保存线和所述第一文件关联线生成每个所述未转移文件的创建拓扑图,所述创建拓扑图包括主文件节点和子文件节点,所述主文件节点保存所述未转移文件的所述存储信息,所述子文件节点保存与所述未转移文件相关联所述文件的所述存储信息,所述主文件节点和所述子文件节点、所述子文件节点和所述子文件节点之间通过第二文件关联线连接,所述第二文件关联线内存储有所连接两个节点的所述关联度,所述关联度基于第一公式计算,所述第一公式为:其中,λ为所述关联度,P为数据流出节点对应所述文件包含的总数据量,p为数据流出节点对应所述文件流出的数据量,基于第二公式计算所述创建拓扑图内各个所述主文件节点与各个所述子文件节点之间的关联分值η,所述第二公式为:η=λ1×λ2×…×λi,其中,λi为所述主文件节点与所述子文件节点连接路径上、第i个所述第二文件关联线内存储的所述关联度,设置第二阈值,选取所述创建拓扑图内与所述主文件节点所述关联分值最大的所述子文件节点,若其之间的所述关联分值大于所述第二阈值,则将所述主文件节点对应的所述未转移文件,划分至所述子文件节点对应所述文件所在的所述分类文件夹内,所述合并模块对比所述第二数据类型的所述文件中,同种格式所述文件的相似度,将所述相似度大于第一阈值的所述文件进行合并处理,所述第二分类模块,将所述第三数据类型中的所述文件划分高价值文件和低价值文件,生成建议删除表,将所述低价值文件的所述存储信息填入至所述建议删除表内。
7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行权利要求1-5任意一项所述的一种基于云存储的文件整理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668819.4A CN116680237B (zh) | 2023-06-07 | 2023-06-07 | 一种基于云存储的文件整理方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668819.4A CN116680237B (zh) | 2023-06-07 | 2023-06-07 | 一种基于云存储的文件整理方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116680237A CN116680237A (zh) | 2023-09-01 |
CN116680237B true CN116680237B (zh) | 2024-07-05 |
Family
ID=87780568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310668819.4A Active CN116680237B (zh) | 2023-06-07 | 2023-06-07 | 一种基于云存储的文件整理方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680237B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118312274A (zh) * | 2024-03-26 | 2024-07-09 | 北京小佑科技有限公司 | 容器文件管理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3806820B1 (ja) * | 2005-03-25 | 2006-08-09 | 大分県 | 電子ファイル関連強度自動算出プログラム |
CN104618445A (zh) * | 2014-12-30 | 2015-05-13 | 北京奇虎科技有限公司 | 一种基于云存储空间的文件整理方法和装置 |
CN115185904A (zh) * | 2022-06-24 | 2022-10-14 | 西安易联趣网络科技有限责任公司 | 云存储数据处理方法、装置、电子设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831610B (zh) * | 2019-04-23 | 2024-06-14 | 阿里巴巴集团控股有限公司 | 文件与数据库记录获取方法、计算机设备及存储介质 |
-
2023
- 2023-06-07 CN CN202310668819.4A patent/CN116680237B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3806820B1 (ja) * | 2005-03-25 | 2006-08-09 | 大分県 | 電子ファイル関連強度自動算出プログラム |
CN104618445A (zh) * | 2014-12-30 | 2015-05-13 | 北京奇虎科技有限公司 | 一种基于云存储空间的文件整理方法和装置 |
CN115185904A (zh) * | 2022-06-24 | 2022-10-14 | 西安易联趣网络科技有限责任公司 | 云存储数据处理方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116680237A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276002B (zh) | 搜索应用数据处理方法、装置、计算机设备和存储介质 | |
CN102332029B (zh) | 一种基于Hadoop 的海量可归类小文件关联存储方法 | |
CN102169507B (zh) | 一种分布式实时搜索引擎的实现方法 | |
US8838530B2 (en) | Method and system for directory management | |
CN103262043B (zh) | 从差异备份中执行数据库的精细恢复的方法和系统 | |
KR20200093567A (ko) | 클라이언트 동기화 업데이트들의 효율적인 관리 | |
CN107045531A (zh) | 一种优化hdfs小文件存取的系统及方法 | |
US20140019494A1 (en) | Method and apparatus for file storage | |
CN108614837B (zh) | 文件存储和检索的方法及装置 | |
CN103778202A (zh) | 一种企业电子文档管理服务端及系统 | |
US11429494B2 (en) | File backup based on file type | |
CN103246700A (zh) | 基于HBase的海量小文件低延时存储方法 | |
EP3788505B1 (en) | Storing data items and identifying stored data items | |
CN116680237B (zh) | 一种基于云存储的文件整理方法、系统和存储介质 | |
CN106326035A (zh) | 一种基于文件元数据的增量备份方法 | |
US11687508B2 (en) | Accessing historical content items of a content management system through placeholders | |
CN103279489A (zh) | 一种元数据的存储方法、装置 | |
US11403024B2 (en) | Efficient restoration of content | |
US8495025B2 (en) | Foldering by stable query | |
CN103778231A (zh) | 一种数据银行管理操作记录信息的方法及系统 | |
CN106126555A (zh) | 一种文件管理方法及文件系统 | |
CN116821133A (zh) | 一种数据处理方法和装置 | |
CN102831240A (zh) | 扩展元数据文件的存储方法和存储结构 | |
US9678979B1 (en) | Common backup format and log based virtual full construction | |
CN117493284B (zh) | 文件存储方法、文件读取方法、文件存储和读取系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |