CN117688013B - 一种基于缓存索引的主索引生成方法、装置、设备及介质 - Google Patents
一种基于缓存索引的主索引生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117688013B CN117688013B CN202410137530.4A CN202410137530A CN117688013B CN 117688013 B CN117688013 B CN 117688013B CN 202410137530 A CN202410137530 A CN 202410137530A CN 117688013 B CN117688013 B CN 117688013B
- Authority
- CN
- China
- Prior art keywords
- index
- main index
- main
- source data
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 109
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000000750 progressive effect Effects 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及主索引生成技术领域,具体提供一种基于缓存索引的主索引生成方法、装置、设备及介质,所述方法包括:构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;按照业务需求构建多级多规则缓存主索引;对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。对源数据进行过滤,提高了数据的精确性,通过逐级逐规则查询索引以及去重处理,有助于提高主索引效率。
Description
技术领域
本发明涉及主索引生成技术领域,具体涉及一种基于缓存索引的主索引生成方法、装置、设备及介质。
背景技术
随着医疗信息化的快速发展,企业级患者主索引(Enterprise Master PatientIndex,EMPI)的需求越来越迫切。在大型医疗机构中,患者信息量巨大且复杂,企业级患者主索引需要满足跨部门、跨系统的数据共享和信息整合需求。同时还需要具备实时更新和数据安全保障等功能。如何高效、准确且可靠地生成企业级患者主索引成为了一个技术难题。
在已有的解决方案中,针对企业级患者主索引生成解决方案的研究已经取得了一定的成果。常见的实现方案主要包括基于数据库复制的技术、基于分布式缓存的技术和基于数据匹配的技术等。其中,基于数据库复制的技术是通过将数据从一个数据库复制到另一个数据库来实现数据共享和信息整合。基于分布式缓存的技术是通过将数据存储在分布式缓存系统中,提高数据读取速度和系统性能。基于数据匹配的技术是通过比对不同系统的数据进行匹配和更新,实现患者信息的关联和更新。
但是上述技术,在处理大规模数据时效率较低,实现大规模数据的实时更新比较困难。
发明内容
本发明的目的是提供一种基于缓存索引的主索引生成方法、装置、设备及介质,该方法有助于实现企业级患者主索引的高效生成和实时更新。
第一方面,本发明技术方案提供一种基于缓存索引的主索引生成方法,包括以下步骤:
构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
按照业务需求构建多级多规则缓存主索引;多级包括级别从低到高的线程级、进程级、节点级和全局级;多规则包括精确匹配规则和相似匹配规则;
对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;
根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;
对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。
作为本发明技术方案的进一步限定,对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据的步骤包括:
对通过源数据通道灌入的数据按照预设清洗条件和/或预设格式化条件进行过滤,获取需要构建主索引的有效的源数据。
作为本发明技术方案的进一步限定,按照业务需求构建多级多规则缓存主索引的步骤中,多规则包括精确匹配规则和相似匹配规则;
根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引的步骤包括:
根据获取的有效的源数据对多级多规则缓存主索引逐级按照精确匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
作为本发明技术方案的进一步限定,根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引的步骤还包括:
根据获取的有效的源数据对多级多规则缓存主索引逐级按照相似匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
作为本发明技术方案的进一步限定,所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储的步骤包括:
对获取的第一主索引进行去重处理;
判断去重处理后第一主索引的条数是否为0;
若是,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理;
若否,判断去重处理后第一主索引的条数是否等于1;若是,进行第一主索引填充,并将填充后的第一主索引的源数据追加到目标数据仓库;若否,将第一主索引进行合并,利用合并后的第一主索引对多级多规则缓存主索引进行更新,并将合并后的第一主索引及填充合并后第一主索引的源数据更新和/或追加到目标数据仓库。
作为本发明技术方案的进一步限定,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理的步骤包括:
将需要构建主索引的有效的源数据转发通过全新主索引数据通道灌入;
对有效的通过全新主索引数据通道灌入的数据进行串行查询,获取第二主索引;
对获取到的第二主索引进行去重处理;
判断去重处理后第二主索引的条数是否为0;
若是,创建全新主索引并将创建的全新主索引及对应的源数据追加到目标数据仓库;
若否,判断去重处理后第二主索引的条数是否等于1;若否,将第二主索引进行合并,利用合并后的第二主索引对多级多规则缓存主索引进行更新,并将合并后的第二主索引及填充合并后第二主索引的源数据更新和/或追加到目标数据仓库;若是,进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库。
作为本发明技术方案的进一步限定,利用合并后的第一主索引对多级多规则缓存主索引进行更新的步骤包括:
按照级别从高到低的顺序逐级查询,在查询到与合并后的第一主索引相同的索引时,进行更新缓存主索引,并在无法查询到与合并后的第一主索引相同的索引时,停止更新缓存主索引。
第二方面,本发明技术方案提供一种基于缓存索引的主索引生成装置,包括数据通道构建模块、主索引构建模块、数据处理模块、索引查询模块和查询结果处理模块;
数据通道构建模块,用于构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
主索引构建模块,用于按照业务需求构建多级多规则缓存主索引;多级包括级别从低到高的线程级、进程级、节点级和全局级;多规则包括精确匹配规则和相似匹配规则;
数据处理模块,用于对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;
索引查询模块,用于根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;
查询结果处理模块,用于对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。
作为本发明技术方案的进一步限定,数据处理模块,具体用于对通过源数据通道灌入的数据按照预设清洗条件和/或预设格式化条件进行过滤,获取需要构建主索引的有效的源数据。
作为本发明技术方案的进一步限定,多规则包括精确匹配规则和相似匹配规则;
索引查询模块,用于根据获取的有效的源数据对多级多规则缓存主索引逐级按照精确匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引;还用于根据获取的有效的源数据对多级多规则缓存主索引逐级按照相似匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
作为本发明技术方案的进一步限定,所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
查询结果处理模块包括去重处理单元、查询结果处理单元、转发单元、填充处理器和合并处理器;
去重处理单元,用于对获取的第一主索引进行去重处理;
查询结果处理单元,用于判断去重处理后第一主索引的条数是否为0;判断去重处理后第一主索引的条数是否等于1;
转发单元,用于查询结果是0时,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理;
填充处理器,用于第一主索引查询结果是1时,进行第一主索引填充,并将填充后的第一主索引的源数据追加到目标数据仓库;
合并处理器,用于第一主索引查询结果大于1时,将第一主索引进行合并,利用合并后的第一主索引对多级多规则缓存主索引进行更新,并将合并后的第一主索引及填充合并后第一主索引的源数据更新和/或追加到目标数据仓库。
作为本发明技术方案的进一步限定,转发单元,用于将需要构建主索引的有效的源数据转发通过全新主索引数据通道灌入;
索引查询模块,用于对有效的通过全新主索引数据通道灌入的数据进行串行查询,获取第二主索引;
去重处理单元,用于对获取到的第二主索引进行去重处理;
查询结果处理单元,用于判断去重处理后第二主索引的条数是否为0;判断去重处理后第二主索引的条数是否等于1;
主索引构建模块,用于去重处理后第二主索引查询结果为0时,创建全新主索引并将创建的全新主索引及对应的源数据追加到目标数据仓库;
合并处理器,还用于去重处理后第二主索引查询结果大于1时将第二主索引进行合并,利用合并后的第二主索引对多级多规则缓存主索引进行更新,并将合并后的第二主索引及填充合并后第二主索引的源数据更新和/或追加到目标数据仓库;
填充处理器,还用于去重处理后第二主索引的条数为1时,进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库。
作为本发明技术方案的进一步限定,合并处理器,还用于按照级别从高到低的顺序逐级查询,在查询到与合并后的第一主索引相同的索引时,进行更新缓存主索引,并在无法查询到与合并后的第一主索引相同的索引时,停止更新缓存主索引。
第三方面,本发明技术方案提供一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的基于缓存索引的主索引生成方法。
第四方面,本发明技术方案提供 一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述的基于缓存索引的主索引生成方法。
本发明的有益效果在于:本发明通过根据数据来源内容构建多个源数据通道,并对源数据通道数据进行过滤,从而提高了数据的精确性,并通过构建多级别多规则缓存索引,通过逐规则逐级查询索引以及去重处理,有助于提高主索引效率及完整性,而且通过将去重的主索引进行合并后进行实时缓存,有助于实现实时更新。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 是本发明一个实施例提供的方法的示意性流程图。
图2 是本发明另一个实施例提供的方法的示意性流程图。
图3是本发明一个实施例提供的装置的示意性框图。
图4是本发明一个实施例提供的装置工作过程示意图。
图5是本发明一个实施例中精确规则多级检索示意图。
图6是本发明一个实施例中相似规则多级检索示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释:
多条数据通道:即数据来源,为更有效地处理和匹配大量数据,可以事先按业务需要和数据来源或其他方案作数据通道划分,不同的通道,存储和处理不同的数据内容。例如:历史数据通道,数据量较大,但数据固定,更适合批量处理。实时数据通道,数据实时更新,受来源方多少决定实时数据量,可周期性批次处理,亦可流式处理。单一医院数据通道,该类数据通道的数据格式相对固定,在做相关缓存索引时,可以按照该医院数据特性加以优化等等。
多种匹配规则:匹配规则,即为可以将两条或多条数据认为是一个主索引的聚合条件。匹配规则可以分为精确匹配,相似度匹配等等,精确匹配即严格匹配,例如以证件号码及姓名严格聚类,相似度匹配,即相似程序达到预设值即可,例如以联系方式,时间范围及家庭住址相似度聚类,本专利不再赘述。
多组缓存索引:构建多级缓存索引,例如精确规则缓存索引,相似规则缓存索引,除此之外还可以根据数据通道的作用,构建不同缓存索引。每组缓存索引包含多级缓存索引每一级缓存索引对应不同的数据访问效率。例如,一级缓存索引可以对应线程级缓存索引,二级缓存索引可以对应进程级缓存索引,三级缓存索引可以对应节点级缓存索引,四级缓存索引可以对应全局级缓存索引。其访问效率由快到慢分别为一级,二级,三级,四级。基于土所示的处理过程,两种规则查询过程见图5和图6。四级索引由上而逐级索引检索。由下而上,索引更新。
多组调度策略/处理器:配合全局,实现相关模块的数据交互。例如精确查询结果调度处理器,精确规则缓存索引重载处理器,用于与缓存索引交互。数据通道数据调度处理器,用于读取不同数据通道,并将数据发送到下游调度器。数据合并处理器,用于合并相同主索引记录。
目标数据仓库:用于存储目标数据。
如图1所示,本发明实施例提供一种基于缓存索引的主索引生成方法,包括以下步骤:
步骤1:构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
步骤2:按照业务需求构建多级多规则缓存主索引;多级包括级别从低到高的线程级、进程级、节点级和全局级;多规则包括精确匹配规则和相似匹配规则;
步骤3:对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;
本步骤中,对通过源数据通道灌入的数据按照预设清洗条件和/或预设格式化条件进行过滤,获取需要构建主索引的有效的源数据。
步骤4:根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;
多规则包括精确匹配规则和相似匹配规则;本步骤中,根据获取的有效的源数据对多级多规则缓存主索引逐级按照精确匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
步骤5:对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。
在有些实施例中,根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引的步骤还包括:
根据获取的有效的源数据对多级多规则缓存主索引逐级按照相似匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
本发明实施例需要说明的是,对获得的有效的源数据内容进行逐规则逐级查询,并返回所有满足条件的主索引,以得到第一主索引,比如,首先查询最低级别即线程级,若线程级查询到满足条件的主索引,则返回满足条件的主索引,不再进行下一级的查询,若未查询到满足条件的主索引,对进程级进行查询,并将满足条件的主索引返回,若未查询到满足条件的主索引,进行节点级的查询。若在节点级查询到满足条件的主索引,则查询结束,即不会再对全局级进行查询。
由于级别越高,查询所需要的时间越长,通过从低级别向高级别进行查询节约了查询时间。
如图2所示,在有些实施例中,对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储的步骤包括:
步骤51:对获取的第一主索引进行去重处理;
步骤52:判断去重处理后第一主索引的条数是否为0;
若是,执行步骤56;
若否,执行步骤53;
步骤53:判断去重处理后第一主索引的条数是否等于1;若是,执行步骤54;若否,执行步骤55;
步骤54:进行第一主索引填充,并将填充后的第一主索引的源数据追加到目标数据仓库;
步骤55:将第一主索引进行合并,利用合并后的第一主索引对多级多规则缓存主索引进行更新,并将合并后的第一主索引及填充合并后第一主索引的源数据更新和/或追加到目标数据仓库;
本步骤中,利用合并后的第一主索引对多级多规则缓存主索引进行更新的步骤包括:
按照级别从高到低的顺序逐级查询,在查询到与合并后的第一主索引相同的索引时,进行更新缓存主索引,并在无法查询到与合并后的第一主索引相同的索引时,停止更新缓存主索引。
步骤56:将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理。
在有些实施例中,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理的步骤包括:
步骤561:将需要构建主索引的有效的源数据转发通过全新主索引数据通道灌入;
步骤562:对有效的通过全新主索引数据通道灌入的数据进行串行查询,获取第二主索引;
步骤563:对获取到的第二主索引进行去重处理;
步骤564:判断去重处理后第二主索引的条数是否为0;
若是,执行步骤569;
若否,执行步骤565;
步骤565:判断去重处理后第二主索引的条数是否等于1;
若否,执行步骤567,若是,执行步骤568;
步骤567:将第二主索引进行合并,利用合并后的第二主索引对多级多规则缓存主索引进行更新,并将合并后的第二主索引及填充合并后第二主索引的源数据更新和/或追加到目标数据仓库;
步骤568:进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库;
步骤569:创建全新主索引并将创建的全新主索引及对应的源数据追加到目标数据仓库。
需要说明的是,对第一主索引进行去重处理后,若去重结果大于1,即存在多于1条相同的第一主索引,则主索引合并处理器对第一主索引进行合并,然后利用合并后的第一主索引对所构建的多级规则中的缓存主索引进行更新,并将合并后的第一主索引的源数据引追加到目标数据仓库;
其中,利用合并后的第一主索引对多级规则中的缓存主索引进行更新包括:按照级别从高到低的顺序进行缓存更新,首先检索全局级中是否存在与合并后的第一主索引相同的主索引,若有,则进行缓存更新,若没有,进行下一级别级节点级的查询和更新,若节点级查询到与合并后的第一索引相同的主索引,则结束更新。
若去重结果为1,即查询到与第一主索引相同的1条主索引,则执行以下步骤:索引填充处理器对第一主索引进行填充,并将第一主索的源数据引追加到目标数据仓库中。
若去重结果为空,即没有重复的第一主索引,则执行以下步骤:
将第一主索引的有效的源数据灌入到全新主索引数据通道;对有效的第一主索引的源数据进行串行查询,获取第二主索引;
对获取到的第二主索引进行去重处理,若去重结果为0,则创建全新主索引,并将创建的全新主索引及对应的源数据追加到目标数据仓库;若去重结果大于1,则将第二主索引进行合并,利用合并后的第二主索引对所构建的多级规则中的缓存主索引进行更新将对应的源数据追加到目标数据仓库;若去重结果为1,则进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库中。
本发明构建多个主索引数据通道,并对通过数据通道灌入的数据进行过滤,从而提高了数据的精确性,并通过构建多级别多规则缓存索引,通过逐级逐规则查询以及去重处理,有助于提高主索引查询效率,而且通过将去重的主索引进行合并后进行实时缓存,有助于实现实时更新。
如图3所示,本发明技术方案提供一种基于缓存索引的主索引生成装置,包括数据通道构建模块、主索引构建模块、数据处理模块、索引查询模块和查询结果处理模块;
数据通道构建模块,用于构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
主索引构建模块,用于按照业务需求构建多级多规则缓存主索引;多级包括级别从低到高的线程级、进程级、节点级和全局级;多规则包括精确匹配规则和相似匹配规则;
数据处理模块,用于对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;
索引查询模块,用于根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;
查询结果处理模块,用于对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。
数据处理模块,具体用于对通过源数据通道灌入的数据按照预设清洗条件和/或预设格式化条件进行过滤,获取需要构建主索引的有效的源数据。
多规则包括精确匹配规则和相似匹配规则;索引查询模块,用于根据获取的有效的源数据对多级多规则缓存主索引逐级按照精确匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引;还用于根据获取的有效的源数据对多级多规则缓存主索引逐级按照相似匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
查询结果处理模块包括去重处理单元、查询结果处理单元、转发单元、填充处理器和合并处理器;
去重处理单元,用于对获取的第一主索引进行去重处理;
查询结果处理单元,用于判断去重处理后第一主索引的条数是否为0;判断去重处理后第一主索引的条数是否等于1;
转发单元,用于查询结果是0时,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理;
填充处理器,用于第一主索引查询结果是1时,进行第一主索引填充,并将填充后的第一主索引的源数据追加到目标数据仓库;
合并处理器,用于第一主索引查询结果大于1时,将第一主索引进行合并,利用合并后的第一主索引对多级多规则缓存主索引进行更新,并将合并后的第一主索引及填充合并后第一主索引的源数据更新和/或追加到目标数据仓库。
转发单元,用于将需要构建主索引的有效的源数据转发通过全新主索引数据通道灌入;索引查询模块,用于对有效的通过全新主索引数据通道灌入的数据进行串行查询,获取第二主索引;去重处理单元,用于对获取到的第二主索引进行去重处理;查询结果处理单元,用于判断去重处理后第二主索引的条数是否为0;判断去重处理后第二主索引的条数是否等于1,具体处理过程如图4所示。
主索引构建模块,用于去重处理后第二主索引查询结果为0时,创建全新主索引并将创建的全新主索引及对应的源数据追加到目标数据仓库;
合并处理器,还用于去重处理后第二主索引查询结果大于1时将第二主索引进行合并,利用合并后的第二主索引对多级多规则缓存主索引进行更新,并将合并后的第二主索引及填充合并后第二主索引的源数据更新和/或追加到目标数据仓库;
填充处理器,还用于去重处理后第二主索引的条数为1时,进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库。
合并处理器,还用于按照级别从高到低的顺序逐级查询,在查询到与合并后的第一主索引相同的索引时,进行更新缓存主索引,并在无法查询到与合并后的第一主索引相同的索引时,停止更新缓存主索引。
本发明实施例还提供一种电子设备,所述电子设备包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。通信总线可以用于电子设备与传感器之间的信息传输。处理器可以调用存储器中的逻辑指令,以执行如下方法:步骤1:构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;步骤2:按照业务需求构建多级多规则缓存主索引;多级包括级别从低到高的线程级、进程级、节点级和全局级;多规则包括精确匹配规则和相似匹配规则;步骤3:对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;步骤4:根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;步骤5:对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述方法实施例所提供的方法,例如包括:步骤1:构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;步骤2:按照业务需求构建多级多规则缓存主索引;多级包括级别从低到高的线程级、进程级、节点级和全局级;多规则包括精确匹配规则和相似匹配规则;步骤3:对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;步骤4:根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;步骤5:对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例中提供的基于缓存索引的主索引生成装置的实施例,该装置与上述各实施例的基于缓存索引的主索引生成方法属于同一个发明构思,在数控机床的加工基准标定装置的实施例中未详尽描述的细节内容,可以参考上述基于缓存索引的主索引生成方法的实施例。
基于缓存索引的主索引生成装置是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属技术领域的技术人员能够理解,基于缓存索引的主索引生成方法各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于缓存索引的主索引生成方法,其特征在于,包括以下步骤:
构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;
按照业务需求构建多级多规则缓存主索引;
对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;
根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;
对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储;
所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储的步骤包括:
对获取的第一主索引进行去重处理;
判断去重处理后第一主索引的条数是否为0;
若是,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理;
若否,判断去重处理后第一主索引的条数是否等于1;若是,进行第一主索引填充,并将填充后的第一主索引的源数据追加到目标数据仓库;若否,将第一主索引进行合并,利用合并后的第一主索引对多级多规则缓存主索引进行更新,并将合并后的第一主索引及填充合并后第一主索引的源数据更新和/或追加到目标数据仓库;
将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理的步骤包括:
将需要构建主索引的有效的源数据转发通过全新主索引数据通道灌入;
对有效的通过全新主索引数据通道灌入的数据进行串行查询,获取第二主索引;
对获取到的第二主索引进行去重处理;
判断去重处理后第二主索引的条数是否为0;
若是,创建全新主索引并将创建的全新主索引及对应的源数据追加到目标数据仓库;
若否,判断去重处理后第二主索引的条数是否等于1;若否,将第二主索引进行合并,利用合并后的第二主索引对多级多规则缓存主索引进行更新,并将合并后的第二主索引及填充合并后第二主索引的源数据更新和/或追加到目标数据仓库;若是,进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库。
2.根据权利要求1所述的基于缓存索引的主索引生成方法,其特征在于,对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据的步骤包括:
对通过源数据通道灌入的数据按照预设清洗条件和/或预设格式化条件进行过滤,获取需要构建主索引的有效的源数据。
3.根据权利要求1或2所述的基于缓存索引的主索引生成方法,其特征在于,按照业务需求构建多级多规则缓存主索引的步骤中,多规则包括精确匹配规则和相似匹配规则;
根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引的步骤包括:
根据获取的有效的源数据对多级多规则缓存主索引逐级按照精确匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
4.根据权利要求3所述的基于缓存索引的主索引生成方法,其特征在于,根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引的步骤还包括:
根据获取的有效的源数据对多级多规则缓存主索引逐级按照相似匹配规则进行索引查询,并返回所有满足条件的主索引,以得到第一主索引。
5.根据权利要求4所述的基于缓存索引的主索引生成方法,其特征在于,利用合并后的第一主索引对多级多规则缓存主索引进行更新的步骤包括:
按照级别从高到低的顺序逐级查询,在查询到与合并后的第一主索引相同的索引时,进行更新缓存主索引,并在无法查询到与合并后的第一主索引相同的索引时,停止更新缓存主索引。
6.一种基于缓存索引的主索引生成装置,其特征在于,包括数据通道构建模块、主索引构建模块、数据处理模块、索引查询模块和查询结果处理模块;
数据通道构建模块,用于构建供不同来源数据灌入的多个源数据通道,并对构建的多个源数据通道进行划分;
主索引构建模块,用于按照业务需求构建多级多规则缓存主索引;
数据处理模块,用于对通过源数据通道灌入的数据按照预设条件进行过滤,获取需要构建主索引的有效的源数据;
索引查询模块,用于根据获取的有效的源数据对多级多规则缓存主索引进行逐规则逐级索引查询,获取第一主索引;
查询结果处理模块,用于对获取的第一主索引进行去重处理,并基于去重结果逐级实时自动进行缓存索引更新和对应源数据的存储;
所述源数据通道至少包括需要构建全新主索引的数据的灌入通道,定义为全新主索引数据通道;
查询结果处理模块包括去重处理单元、查询结果处理单元、转发单元、填充处理器和合并处理器;
去重处理单元,用于对获取的第一主索引进行去重处理;
查询结果处理单元,用于判断去重处理后第一主索引的条数是否为0;判断去重处理后第一主索引的条数是否等于1;
转发单元,用于查询结果是0时,将需要构建主索引的有效的源数据转发至全新主索引数据通道进行处理;
填充处理器,用于第一主索引查询结果是1时,进行第一主索引填充,并将填充后的第一主索引的源数据追加到目标数据仓库;
合并处理器,用于第一主索引查询结果大于1时,将第一主索引进行合并,利用合并后的第一主索引对多级多规则缓存主索引进行更新,并将合并后的第一主索引及填充合并后第一主索引的源数据更新和/或追加到目标数据仓库;
转发单元,还用于将需要构建主索引的有效的源数据转发通过全新主索引数据通道灌入;
索引查询模块,用于对有效的通过全新主索引数据通道灌入的数据进行串行查询,获取第二主索引;
去重处理单元,用于对获取到的第二主索引进行去重处理;
查询结果处理单元,用于判断去重处理后第二主索引的条数是否为0;判断去重处理后第二主索引的条数是否等于1;
主索引构建模块,用于去重处理后第二主索引查询结果为0时,创建全新主索引并将创建的全新主索引及对应的源数据追加到目标数据仓库;
合并处理器,还用于去重处理后第二主索引查询结果大于1时将第二主索引进行合并,利用合并后的第二主索引对多级多规则缓存主索引进行更新,并将合并后的第二主索引及填充合并后第二主索引的源数据更新和/或追加到目标数据仓库;
填充处理器,还用于去重处理后第二主索引的条数为1时,进行第二主索引填充,并将填充后的第二主索引的源数据追加到目标数据仓库。
7.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的基于缓存索引的主索引生成方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一项所述的基于缓存索引的主索引生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410137530.4A CN117688013B (zh) | 2024-02-01 | 2024-02-01 | 一种基于缓存索引的主索引生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410137530.4A CN117688013B (zh) | 2024-02-01 | 2024-02-01 | 一种基于缓存索引的主索引生成方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117688013A CN117688013A (zh) | 2024-03-12 |
CN117688013B true CN117688013B (zh) | 2024-04-30 |
Family
ID=90139361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410137530.4A Active CN117688013B (zh) | 2024-02-01 | 2024-02-01 | 一种基于缓存索引的主索引生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688013B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339303A (zh) * | 2010-07-20 | 2012-02-01 | 西门子公司 | 分布式系统 |
WO2013010414A1 (zh) * | 2011-07-21 | 2013-01-24 | 腾讯科技(深圳)有限公司 | 构建索引的方法、检索方法、装置及系统 |
CN105740405A (zh) * | 2016-01-29 | 2016-07-06 | 华为技术有限公司 | 存储数据的方法和装置 |
CN106383830A (zh) * | 2016-08-23 | 2017-02-08 | 浙江宇视科技有限公司 | 一种数据检索方法及设备 |
CN109542907A (zh) * | 2018-11-21 | 2019-03-29 | 万兴科技股份有限公司 | 数据库缓存构建方法、装置、计算机设备以及存储介质 |
CN115881283A (zh) * | 2022-11-30 | 2023-03-31 | 成都延华西部健康医疗信息产业研究院有限公司 | 基于动态模型及动态规则的医疗主索引管理系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159895A (zh) * | 2014-05-28 | 2015-12-16 | 国际商业机器公司 | 用于存储和查询数据的方法和系统 |
CN109918472A (zh) * | 2019-02-27 | 2019-06-21 | 北京百度网讯科技有限公司 | 存储和查询数据的方法、装置、设备和介质 |
-
2024
- 2024-02-01 CN CN202410137530.4A patent/CN117688013B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339303A (zh) * | 2010-07-20 | 2012-02-01 | 西门子公司 | 分布式系统 |
WO2013010414A1 (zh) * | 2011-07-21 | 2013-01-24 | 腾讯科技(深圳)有限公司 | 构建索引的方法、检索方法、装置及系统 |
CN105740405A (zh) * | 2016-01-29 | 2016-07-06 | 华为技术有限公司 | 存储数据的方法和装置 |
CN106383830A (zh) * | 2016-08-23 | 2017-02-08 | 浙江宇视科技有限公司 | 一种数据检索方法及设备 |
CN109542907A (zh) * | 2018-11-21 | 2019-03-29 | 万兴科技股份有限公司 | 数据库缓存构建方法、装置、计算机设备以及存储介质 |
CN115881283A (zh) * | 2022-11-30 | 2023-03-31 | 成都延华西部健康医疗信息产业研究院有限公司 | 基于动态模型及动态规则的医疗主索引管理系统及方法 |
Non-Patent Citations (2)
Title |
---|
"Cache tables: Paving the way for an adaptive database cache";Mehmet Altınel等;《Proceedings 2003 VLDB Conference》;20031231;第718-729页 * |
HiBase:一种基于分层式索引的高效HBase查询技术与系统;葛微等;《计算机学报》;20160131;第39卷(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117688013A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11762876B2 (en) | Data normalization using data edge platform | |
CN104794123B (zh) | 一种为半结构化数据构建NoSQL数据库索引的方法及装置 | |
CN109983456B (zh) | 存储器内密钥范围搜索方法和系统 | |
CN107085570B (zh) | 数据处理方法、应用服务器和路由器 | |
WO2018036549A1 (zh) | 分布式数据库查询方法、装置及管理系统 | |
CN110909111B (zh) | 基于知识图谱rdf数据特征的分布式存储与索引方法 | |
CN111159180A (zh) | 一种基于数据资源目录构建的数据处理方法及系统 | |
CN113486008A (zh) | 数据血缘分析方法、装置、设备及存储介质 | |
CN117033424A (zh) | 慢sql语句的查询优化方法、装置和计算机设备 | |
CN110413631B (zh) | 一种数据查询方法及装置 | |
Song et al. | Haery: a Hadoop based query system on accumulative and high-dimensional data model for big data | |
US11928113B2 (en) | Structure and method of aggregation index for improving aggregation query efficiency | |
CN111125199B (zh) | 一种数据库访问方法、装置及电子设备 | |
US12026162B2 (en) | Data query method and apparatus, computing device, and storage medium | |
Mittal et al. | Efficient random data accessing in MapReduce | |
CN117688013B (zh) | 一种基于缓存索引的主索引生成方法、装置、设备及介质 | |
CN113326281A (zh) | 物流订单数据的处理方法、装置、设备及存储介质 | |
CN115470355A (zh) | 轨道交通信息查询方法、装置、电子设备和存储介质 | |
CN113535803A (zh) | 一种基于关键字索引的区块链高效检索及可靠性验证方法 | |
US20060101045A1 (en) | Methods and apparatus for interval query indexing | |
CN108647243B (zh) | 基于时间序列的工业大数据存储方法 | |
CN112632118A (zh) | 查询数据的方法、装置、计算设备和存储介质 | |
WO2013097065A1 (zh) | 一种索引数据处理方法及设备 | |
CN113505172B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN116450607A (zh) | 数据处理方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |