CN116450805A - 文本处理方法、装置、设备和存储介质 - Google Patents
文本处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116450805A CN116450805A CN202310417763.5A CN202310417763A CN116450805A CN 116450805 A CN116450805 A CN 116450805A CN 202310417763 A CN202310417763 A CN 202310417763A CN 116450805 A CN116450805 A CN 116450805A
- Authority
- CN
- China
- Prior art keywords
- regular
- library
- text
- compiled
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 230000014509 gene expression Effects 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本处理方法、装置、设备和存储介质。该方法包括:根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。由于内存中缓存有不同正则库标识对应的已编译正则库,因此,在对待处理文本进行匹配时,仅需要直接从内存中读取与待处理文本对应的目标已编译正则库进行匹配即可,无需再逐一编译所有的正则表达式,从而提高了文本匹配效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、设备和存储介质。
背景技术
随着计算机技术的快速发展,人们生活的各个方面都在积极利用计算机手段处理事务,例如,判定人们所发布的文本内容是否合规等。在进行文本处理时,可以使用正则表达式与文本语句进行匹配,以从文本语句中筛选出符合规则的语句。
在相关技术中,可以预先编写各种过滤规则的正则表达式,形成正则表达式集合,利用上述正则表达式集合对所有业务的文本进行匹配。但是,在利用上述正则表达式集合进行文本匹配时,需要先对上述正则表达式集合中的所有正则表达式进行逐一编译,在编译后再进行匹配,这样,会导致正则匹配效率较低。
发明内容
基于此,本申请实施例提供一种文本处理方法、装置、设备和存储介质,可以提高文本匹配效率以及匹配结果的准确性。
第一方面,本申请实施例提供一种文本处理方法,包括:
根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;
从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;
根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。
第二方面,本申请实施例提供一种文本处理装置,包括:
确定模块,用于根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;
第一获取模块,用于从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;
第一匹配模块,用于根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例第一方面提供的文本处理方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的文本处理方法的步骤。
本申请实施例提供的技术方案,根据待处理文本的业务类型,确定与业务类型对应的正则库标识,从内存中读取与正则库标识对应的目标已编译正则库;根据目标已编译正则库中的正则表达式对待处理文本进行匹配,得到第一匹配结果。由于内存中缓存有不同正则库标识对应的已编译正则库,即已经预先对各正则库标识对应的正则库中的正则表达式进行了预编译,因此,在对待处理文本进行匹配时,无需再逐一编译相应的正则表达式,直接从内存中读取对应的目标已编译正则库进行匹配即可,从而提高了文本匹配效率;并且,仅使用与业务类型相匹配的目标已编译正则库对待处理文本进行匹配,无需将所有正则库与待处理文本进行匹配,减少了文本匹配时不相关正则表达式的数量,从而进一步提高了文本匹配效率。
附图说明
图1为本申请实施例提供的文本处理方法的一种流程示意图;
图2为本申请实施例提供的文本处理方法的另一种流程示意图;
图3为本申请实施例提供的文本处理方法的又一种流程示意图;
图4为本申请实施例提供的文本处理装置的一种结构示意图;
图5为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
为了使本申请的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本申请实施例中的技术方案进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,下述方法实施例的执行主体可以是文本处理装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为电子设备的部分或者全部。可选地,该电子设备可以是平板电脑、台式电脑以及智能手机等。当然,该电子设备也可以是独立的服务器或者服务器集群等,本申请实施例对电子设备的具体类型不做限定。下述方法实施例以执行主体是电子设备为例进行说明。
图1为本申请实施例提供的文本处理方法的一种流程示意图。如图1所示,该方法可以包括:
S101、根据待处理文本的业务类型,确定与业务类型对应的正则库标识。
本申请实施例提供的方法可以与多个业务方进行对接,不同业务方具有不同的业务类型,例如,“朋友圈”与“微博”为两个不同的业务方,其业务类型存在差异。具体的,在文本匹配时,不同业务类型的文本,匹配的侧重点不同。因此,在得到待处理文本之后,可以根据待处理文本所属的业务类型,从预先生成的正则库标识中选择与待处理文本所属的业务类型对应的正则库标识。
上述待处理文本为需要进行过滤匹配的文本。每个正则库都有对应的正则库标识,正则库标识可以是正则库名称、标签、ID、版本号以及正则匹配类型等。同一正则库中的各正则表达式具有相同的正则匹配类型,即将具有相同正则匹配类型的各正则表达式归为一类,形成正则库,并为正则库打上标记,从而生成正则库对应的正则库标识。例如,将用于实现敏感词汇匹配的各正则表达式归为一类,形成正则库1,并为正则库1打上“敏感词汇匹配”的标记;再如,将用于实现广告语匹配的各正则表达式归为一类,形成正则库2,并为正则库2打上“广告语匹配”的标记。
作为一种可选地实施方式,上述S101的过程可以为:根据待处理文本的业务类型,从预设映射关系表中确定与业务类型对应的正则库标识。
其中,上述预设映射关系表中包括业务类型与正则库标识之间的映射关系。即可以预先基于实际需求,建立各业务类型与正则库标识之间的映射关系,这样,便可以基于待处理文本的业务类型,查询预设映射关系表,从而得到待处理文本对应的正则库标识。
示例性地,假设待处理文本的业务类型为“朋友圈”,则从预设映射关系表中选择与“朋友圈”对应的正则库标识,在待处理文本的业务类型为“微博”时,可以从预设映射关系表中选择与“微博”对应的正则库标识。
另外,上述正则库标识可以是由正则库版本生成的,即可以将同一正则匹配类型的正则库细分为多个版本的子库,不同业务类型的待处理文本可以选择同一正则匹配类型的正则库下不同版本的子库来进行匹配,避免多个业务使用同一版本的正则库带来的误命中以及漏命中的技术问题。例如,对于来自“朋友圈”的待处理文本1和来自“微博”的待处理文本2都可以使用用于敏感词匹配的正则库来进行处理,该敏感词匹配的正则库下可以包括子库1和子库2,子库1和子库2的版本不同,各子库中包含的正则表达式存在一些差异,子库1与对业务类型“朋友圈”的适配度更高,子库2与业务类型“微博”的适配度更高,因此,在进行文本敏感词匹配时,可以使用用于敏感词匹配的正则库下的子库1对待处理文本1进行匹配,使用子库2对待处理文本2进行匹配。由于所选择的子库与待处理文本的适配度更高,因此可以提高文本匹配结果的准确性。
S102、从内存中读取与正则库标识对应的目标已编译正则库。
其中,内存中缓存有不同正则库标识对应的已编译正则库,即预先对各正则库中的正则表达式进行预编译,并将预编译后的数据缓存在内存中。这样,在得到待处理文本对应的正则库标识之后,便可以通过该正则库标识从内存中直接读取待处理文本对应的目标已编译正则库。
S103、根据目标已编译正则库中的正则表达式对待处理文本进行匹配,得到第一匹配结果。
在得到目标已编译正则库后,根据目标已编译正则库中的各正则表达式逐一对待处理文本进行过滤匹配,得到待处理文本对应的第一匹配结果。
示例性的,假设待处理文本的业务类型为“朋友圈”,根据该业务类型查询预设映射关系表确定待处理文本对应的正则库标识为正则库1和正则库2,正则库1和正则库2分别对应不同的正则匹配类型,如正则库1用于对待处理文本中的敏感词汇进行匹配,正则库2用于对待处理文本中的广告语进行匹配。进一步地,内存中预先缓存有正则库1的已编译数据,以及正则库2的已编译数据,这样,便可以通过上述确定的正则库标识从内存中读取待处理文本对应的已编译正则库1(即正则库1的已编译数据)和已编译正则库2(即正则库2的已编译数据),使用已编译正则库1中的正则表达式以及已编译正则库2中的正则表达式对待处理文本进行匹配,从而得到对应的第一匹配结果,即将待处理文本中的敏感词汇以及广告语筛选出来。
本申请实施例提供的文本处理方法,根据待处理文本的业务类型,确定与业务类型对应的正则库标识,从内存中读取与正则库标识对应的目标已编译正则库;根据目标已编译正则库中的正则表达式对待处理文本进行匹配,得到第一匹配结果。由于内存中缓存有不同正则库标识对应的已编译正则库,即已经预先对各正则库标识对应的正则库中的正则表达式进行了预编译,因此,在对待处理文本进行匹配时,无需再逐一编译相应的正则表达式,直接从内存中读取对应的目标已编译正则库进行匹配即可,从而提高了文本匹配效率;并且,仅使用与业务类型相匹配的目标已编译正则库对待处理文本进行匹配,无需将所有正则库与待处理文本进行匹配,减少了文本匹配时不相关正则表达式的数量,从而进一步提高了文本匹配效率。
在一个实施例中,可选地,在上述S101之前,如图2所示,该方法还包括:
S201、基于用户的第一配置操作获取待更新正则库和待更新正则库的正则库标识。
其中,待更新正则库中包括属于同一正则匹配类型的多个正则表达式。
在实际应用中,可通过可视化界面来配置生成各正则库。具体的,可以展示配置界面,用户通过该配置界面创建正则库,并为该正则库创建对应的正则库标识,该正则库中包含属于同一正则匹配类型的多个正则表达式。这样,电子设备可以通过该配置界面监测用户的第一配置操作,基于用户的第一配置操作获取待更新正则库和待更新正则库的正则库标识。其中,该待更新正则库可以是新增的正则库,也可以是用于对已有正则库进行修改更新的正则库。
S202、对待更新正则库中的正则表达式进行编译,得到已编译正则库。
在获取到待更新正则库之后,对待更新正则库中的正则表达式进行编译,从而得到待更新正则库对应的已编译正则库。也就是说,在创建正则库之后,电子设备就可以提前对已创建好的正则库中的正则表达式进行预编译,无需等到文本匹配时再进行编译,从而提高了文本匹配效率。
S203、将已编译正则库以及待更新正则库的正则库标识关联存储在内存中。
在得到已编译正则库之后,电子设备可以将已编译正则库以及对应的正则库标识关联存储在内存中。可选地,在上述待更新正则库为对已有正则库进行修改更新的正则库时,上述S203的过程可以为:使用已编译正则库替换内存中与待更新正则库的正则库标识关联的缓存数据。
在本实施例中,充分利用内存的缓存能力,通过提前对创建好的各正则库中的正则表达式进行预编译并缓存,使得内存中缓存有不同正则库标识对应的已编译正则库,,在后续进行文本匹配时,仅需要直接从内存中读取对应的已编译正则库进行匹配即可,无需再逐一对各正则表达式进行编译,提高了文本匹配的效率。
进一步地,可选地,如图3所示,在上述S202之前,该方法还包括:
S204、使用待更新正则库中的正则表达式对验证文本进行匹配,得到第二匹配结果。
在对待更新正则库进行编译之前,还需要对待更新正则库中的正则表达式的正确性以及完整性(即匹配效果)进行验证,避免后续文本匹配时,出现误命中以及漏命中的技术问题。具体的,可以获取一些验证文本,使用待更新正则库中的正则表达式对验证文本进行匹配,根据对验证文本的匹配结果验证待更新正则库的正确性以及完整性。
S205、当第二匹配结果不满足预设条件时,对待更新正则库中的正则表达式进行修改,并将修改后的正则库重新作为待更新正则库,并继续执行上述S204中使用待更新正则库中的正则表达式对验证文本进行匹配的步骤,直至第二匹配结果满足预设条件。
上述预设条件可以为基于实际文本匹配需求进行设置,例如,上述预设条件可以为匹配正确率超过预设阈值。在第二匹配结果不满足预设条件时,对某些匹配效果较差的正则表达式进行修改,形成修改后的正则库,并将修改后的正则库重新作为上述待更新正则库,以及继续执行上述S204的步骤,即反复对待更新正则库进行修改,直至使用待更新正则库对验证文本的第二匹配结果满足预设条件为止。
对应地,可选地,上述S202具体的可以为:当第二匹配结果满足预设条件时,对待更新正则库中的正则表达式进行编译,得到已编译正则库。
在验证通过后,即在第二匹配结果满足预设条件时,才将待更新正则库中的正则表达式进行编译,并将得到的已编译正则库与待更新正则库的正则库标识关联存储在内存中。
通过对待更新正则库的匹配效果进行反复验证,在匹配结果满足条件时才会对待更新正则库进行编译并缓存,从而提高了缓存在内存中的已编译正则库的准确性,进而提高了文本匹配结果的准确性。
在实际应用中,会基于业务的变更需求删除一些正则库。基于此,在上述实施例的基础上,可选地,该方法还包括:基于用户的第二配置操作获取待删除的目标正则库标识;从内存中删除目标正则库标识以及与目标正则库标识对应的已编译正则库。
具体的,用户可以通过上述配置界面删除一些无效正则库,因此,电子设备可以通过该配置界面监测用户的第二配置操作,第二配置操作中包含待删除的目标正则库标识,然后基于待删除的目标正则库标识从内存中查找对应的已编译正则库,并删除已编译正则库以及该目标正则库标识,从而释放内存空间,减少无用数据对内存的占用。
通过域缓存技术对内存中缓存的已编译正则库进行管理,更新相应的已编译正则库,确保内存中缓存的已编译正则库的准确性,从而提高文本匹配结果的准确性;并且,及时删除内存中无效的已编译正则库,减少无效数据对内存的占用。
图4为本申请实施例提供的文本处理装置的一种结构示意图。如图4所示,该装置可以包括:确定模块401、第一获取模块402和第一匹配模块403。
具体的,确定模块401用于根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;
第一获取模块402用于从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;
第一匹配模块403用于根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。
本申请实施例提供的文本处理装置,根据待处理文本的业务类型,确定与业务类型对应的正则库标识,从内存中读取与正则库标识对应的目标已编译正则库;根据目标已编译正则库中的正则表达式对待处理文本进行匹配,得到第一匹配结果。由于内存中缓存有不同正则库标识对应的已编译正则库,即已经预先对各正则库标识对应的正则库中的正则表达式进行了预编译,因此,在对待处理文本进行匹配时,无需再逐一编译相应的正则表达式,直接从内存中读取对应的目标已编译正则库进行匹配即可,从而提高了文本匹配效率;并且,仅使用与业务类型相匹配的目标已编译正则库对待处理文本进行匹配,无需将所有正则库与待处理文本进行匹配,减少了文本匹配时不相关正则表达式的数量,从而进一步提高了文本匹配效率。
在上述实施例的基础上,可选地,该装置还包括:第二获取模块、编译模块和缓存模块。
具体的,第二获取模块用于在所述根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识之前,基于用户的第一配置操作获取待更新正则库和所述待更新正则库的正则库标识;其中,所述待更新正则库中包括属于同一正则匹配类型的多个正则表达式;
编译模块用于对所述待更新正则库中的正则表达式进行编译,得到已编译正则库;
缓存模块用于将所述已编译正则库以及所述待更新正则库的正则库标识关联存储在内存中。
在上述实施例的基础上,可选地,该装置还包括:第二匹配模块和优化模块。
具体的,第二匹配模块用于在所述对所述待更新正则库中的正则表达式进行编译,得到已编译正则库之前,使用所述待更新正则库中的正则表达式对验证文本进行匹配,得到第二匹配结果;
优化模块用于当所述第二匹配结果不满足预设条件时,对所述待更新正则库中的正则表达式进行修改,并将修改后的正则库重新作为所述待更新正则库,继续执行所述使用所述待更新正则库中的正则表达式对验证文本进行匹配的步骤,直至所述第二匹配结果满足预设条件;
对应地,上述编译模块具体用于当所述第二匹配结果满足预设条件时,对所述待更新正则库中的正则表达式进行编译,得到已编译正则库。
在上述实施例的基础上,可选地,缓存模块具体用于使用所述已编译正则库替换内存中与所述待更新正则库的正则库标识关联的缓存数据。
在上述实施例的基础上,可选地,该装置还包括:第三获取模块和删除模块。
具体的,第三获取模块用于基于用户的第二配置操作获取待删除的目标正则库标识;
删除模块用于从所述内存中删除所述目标正则库标识以及与所述目标正则库标识对应的已编译正则库。
在上述实施例的基础上,可选地,确定模块具体用于根据待处理文本的业务类型,从预设映射关系表中确定与所述业务类型对应的正则库标识;其中,所述映射关系表中包括业务类型与正则库标识之间的映射关系。
图5为本申请实施例提供的电子设备的一种结构示意图,如图5所示,该设备包括处理器510、存储器520、输入装置530和输出装置540;该设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;该设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的文本处理方法对应的程序指令/模块(例如,文本处理装置中的确定模块401、第一获取模块402和第一匹配模块403)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行上述设备的各种功能应用以及数据处理,即实现上述的文本处理方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与上述设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时用于执行一种文本处理方法,该方法包括:
根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;
从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;
根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。
当然,本申请实施例所提供的一种计算机可读存储介质,其计算机程序被执行时不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的文本处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;
从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;
根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。
2.根据权利要求1所述的方法,其特征在于,在所述根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识之前,还包括:
基于用户的第一配置操作获取待更新正则库和所述待更新正则库的正则库标识;其中,所述待更新正则库中包括属于同一正则匹配类型的多个正则表达式;
对所述待更新正则库中的正则表达式进行编译,得到已编译正则库;
将所述已编译正则库以及所述待更新正则库的正则库标识关联存储在内存中。
3.根据权利要求2所述的方法,其特征在于,在所述对所述待更新正则库中的正则表达式进行编译,得到已编译正则库之前,还包括:
使用所述待更新正则库中的正则表达式对验证文本进行匹配,得到第二匹配结果;
当所述第二匹配结果不满足预设条件时,对所述待更新正则库中的正则表达式进行修改,并将修改后的正则库重新作为所述待更新正则库,继续执行所述使用所述待更新正则库中的正则表达式对验证文本进行匹配的步骤,直至所述第二匹配结果满足预设条件;
对应地,所述对所述待更新正则库中的正则表达式进行编译,得到已编译正则库,包括:
当所述第二匹配结果满足预设条件时,对所述待更新正则库中的正则表达式进行编译,得到已编译正则库。
4.根据权利要求2所述的方法,其特征在于,所述将所述已编译正则库以及所述待更新正则库的正则库标识关联存储在内存中,包括:
使用所述已编译正则库替换内存中与所述待更新正则库的正则库标识关联的缓存数据。
5.根据权利要求2所述的方法,其特征在于,还包括:
基于用户的第二配置操作获取待删除的目标正则库标识;
从所述内存中删除所述目标正则库标识以及与所述目标正则库标识对应的已编译正则库。
6.根据权利要求1所述的方法,其特征在于,所述根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识,包括:
根据待处理文本的业务类型,从预设映射关系表中确定与所述业务类型对应的正则库标识;其中,所述映射关系表中包括业务类型与正则库标识之间的映射关系。
7.一种文本处理装置,其特征在于,包括:
确定模块,用于根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识;
第一获取模块,用于从内存中读取与所述正则库标识对应的目标已编译正则库;其中,所述内存中缓存有不同正则库标识对应的已编译正则库;
第一匹配模块,用于根据所述目标已编译正则库中的正则表达式对所述待处理文本进行匹配,得到第一匹配结果。
8.根据权利要求7所述的装置,其特征在于,还包括:
第二获取模块,用于在所述根据待处理文本的业务类型,确定与所述业务类型对应的正则库标识之前,基于用户的第一配置操作获取待更新正则库和所述待更新正则库的正则库标识;其中,所述待更新正则库中包括属于同一正则匹配类型的多个正则表达式;
编译模块,用于对所述待更新正则库中的正则表达式进行编译,得到已编译正则库;
缓存模块,用于将所述已编译正则库以及所述待更新正则库的正则库标识关联存储在内存中。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417763.5A CN116450805A (zh) | 2023-04-18 | 2023-04-18 | 文本处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417763.5A CN116450805A (zh) | 2023-04-18 | 2023-04-18 | 文本处理方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450805A true CN116450805A (zh) | 2023-07-18 |
Family
ID=87135298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310417763.5A Pending CN116450805A (zh) | 2023-04-18 | 2023-04-18 | 文本处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450805A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118819547B (zh) * | 2024-09-20 | 2024-11-19 | 中电科申泰信息科技有限公司 | 一种申威平台的正则匹配方法及装置 |
-
2023
- 2023-04-18 CN CN202310417763.5A patent/CN116450805A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118819547B (zh) * | 2024-09-20 | 2024-11-19 | 中电科申泰信息科技有限公司 | 一种申威平台的正则匹配方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8019756B2 (en) | Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document | |
CN102722563B (zh) | 页面显示方法及装置 | |
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
WO2019085474A1 (zh) | 计算引擎实现方法、电子装置及存储介质 | |
CN105431844A (zh) | 用于搜索系统的第三方搜索应用 | |
CN109726280B (zh) | 一种针对同名学者的排歧方法及装置 | |
CN111339171B (zh) | 数据查询的方法、装置及设备 | |
CN109191158B (zh) | 用户画像标签数据的处理方法及处理设备 | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN112434115A (zh) | 一种数据处理方法、装置、电子设备及可读存储介质 | |
CN110019644B (zh) | 对话实现中的搜索方法、装置和计算机可读存储介质 | |
CN111083054B (zh) | 路由配置处理方法、装置、计算机设备和存储介质 | |
CN113254470A (zh) | 一种数据更改方法、装置、计算机设备及存储介质 | |
US20110264683A1 (en) | System and method for managing information map | |
WO2021189766A1 (zh) | 数据可视化方法及相关设备 | |
CN108694172B (zh) | 信息输出方法和装置 | |
CN110895587A (zh) | 用于确定目标用户的方法和装置 | |
CN111552527A (zh) | 用户界面内文字翻译方法、装置、系统及存储介质 | |
CN116450805A (zh) | 文本处理方法、装置、设备和存储介质 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN114416174A (zh) | 基于元数据的模型重构方法、装置、电子设备及存储介质 | |
CN113312540A (zh) | 信息处理方法、装置、设备、系统及可读存储介质 | |
CN114493642A (zh) | 用户画像标签生成方法、装置、计算设备及存储介质 | |
CN110851517A (zh) | 一种源数据抽取方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 6416, Building 13, No. 723 Tongxin Road, Hongkou District, Shanghai 200080 Applicant after: Shanghai Dewu Information Group Co.,Ltd. Address before: Room B6-2005, No. 121 Zhongshan North 1st Road, Hongkou District, Shanghai Applicant before: SHANGHAI SHIZHUANG INFORMATION TECHNOLOGY Co.,Ltd. Country or region before: China |