CN111079432A - 文本检测方法、装置、电子设备及存储介质 - Google Patents
文本检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111079432A CN111079432A CN201911088731.5A CN201911088731A CN111079432A CN 111079432 A CN111079432 A CN 111079432A CN 201911088731 A CN201911088731 A CN 201911088731A CN 111079432 A CN111079432 A CN 111079432A
- Authority
- CN
- China
- Prior art keywords
- text
- detected
- target
- identification
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种文本检测方法、装置、电子设备及计算机可读存储介质,属于计算机技术领域,该文本检测方法包括:对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。本发明实施例能够提高文本检测的准确性。
Description
技术领域
本发明实施例涉及计算机技术领域,具体而言,涉及一种文本检测方法、文本检测装置、电子设备及计算机可读存储介质。
背景技术
文档中一般通过加粗等方式起到提醒或强调的作用,因此如何识别加粗的文本是十分重要的过程。
相关技术中,粗体文本的检测通常使用文本分类方法或者使用传统的规则匹配方法。其中,文本分类一般可以将一句话、一个段落或一个文档进行归类,但是无法直接将一句话中的一个词或者部分文本进行分类。因此,文本分类方法在对部分粗体文本进行识别时,可能还需要人工配合来审核是否正确,因此其识别率和识别效率较低,并且无法准确地检测出被加粗的文本是否合规。规则匹配方法没有考虑文本的语义信息,因此粗体文本识别的准确率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种文本检测方法、文本检测装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服识别粗体文本的准确率和识别效率较低的问题。
本发明实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一个方面,提供一种文本检测方法,包括:对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
在本发明实施例的一种示例性实施例中,在通过训练好的分类模型对所述目标待检测文本进行分类之前,所述方法还包括:获取第一样本数据,并将所述第一样本数据输入embedding层生成对应的词向量序列;将所述词向量序列经过长短时记忆网络进行训练,得到上下文特征;对所述上下文特征采用最大池化操作来获得所述词向量序列的特征向量;将所述特征向量依次输入线性层和分类层,以得到所述训练好的分类模型。
在本发明实施例的一种示例性实施例中,获取第一样本数据,并将所述第一样本数据输入embedding层生成对应的词向量序列包括:对历史检测文本进行预处理,并将预处理后的历史检测文本确定为正样本和负样本,以得到所述第一样本数据;根据所述预处理后的历史检测文本得到词向量;对所述预处理后的历史检测文本进行序列化,得到序列历史检测文本;根据所述词向量以及所述序列历史检测文本构建所述embedding层,并将所述第一样本数据输入所述embedding层,以生成所述词向量序列。
在本发明实施例的一种示例性实施例中,在通过训练好的命名实体识别模型对所述目标待检测文本进行序列标注以确定所述目标待检测文本的文本实体之前,所述方法还包括:获取第二样本数据,所述第二样本数据根据序列标注规则得到;将所述第二样本数据输入长短时记忆网络,以得到所述第二样本数据中的每个字分别用序列标签标注的概率;将所述概率和标签之间的转移概率输入条件随机场层进行句子级别的序列标注,以得到所述训练好的命名实体识别模型。
在本发明实施例的一种示例性实施例中,对所述目标待检测文本中存在的标识文本进行标记包括:若所述标识文本为所述目标待检测文本中的全部文本,则为所述标识文本添加第一标记,并确定所述标识文本的标记位置;若所述标识文本为所述目标待检测文本中的部分文本,则为所述标识文本添加第二标记,并确定所述标识文本的标记位置。
在本发明实施例的一种示例性实施例中,将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测包括:根据所述标记位置获取所述目标待检测文本中的标识文本;若所述目标待检文本中的目标文本与所述标识文本一致,则确定所述目标文本合规;若所述目标文本与所述标识文本不一致,则确定所述目标文本不合规。
在本发明实施例的一种示例性实施例中,根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测包括:根据文本实体的标记位置获取所述文本实体;若所述文本实体与所述标识文本一致,则确定所述文本实体合规;若所述文本实体与所述标识文本不一致,则确定所述文本实体不合规。
根据本发明实施例的一个方面,提供一种文本检测装置,包括:标识文本确定模块,用于对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;文本分类模块,用于通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;第一检测模块,用于若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;第二检测模块,用于若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
根据本发明实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任意一项所述的文本检测方法。
根据本发明实施例的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本检测方法。
本发明实施例提供的文本检测方法、装置、电子设备和计算机可读存储介质中,通过训练好的分类模型对目标待检测文本进行分类,以确定分类结果是否属于预设类型;若分类结果属于预设类型,则将目标待检测文本与标识文本进行对比以进行合规检测;若分类结果不属于预设类型,则通过训练好的命名实体识别模型对目标待检测文本进行序列标注以确定目标待检测文本的文本实体,并根据所述文本实体与标识文本的对比结果对目标待检测文本进行合规检测。一方面,可以先通过训练好的分类模型确定目标待检测文本是否属于预设类型,并在属于预设类型时根据识别后的目标待检测文本和原本标记的标识文本进行对比从而进行合规检测,或者是在不属于预设类型时根据训练好的命名实体识别模型得到的目标待检测文本的文本实体以及原本标记的标识文本进行对比从而进行合规检测,由于可融合分类模型和命名实体识别模型对文本进行识别,能够准确地确定待检测文本是否合规,提高识别准确率。另一方面,通过训练好的分类模型和命名实体识别模型,可实现自动识别文本的功能,对目标待检测文本进行合规检测,减少了人工审核的操作,提高了效率,节约了成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了本发明实施例的文本检测方法的流程示意图;
图2示意性示出了本发明实施例的训练分类模型的示意图;
图3示意性示出了本发明实施例的生成词向量序列的示意图;
图4示意性示出了本发明实施例的将目标待检测文本和标识文本进行对比的流程示意图;
图5示意性示出了本发明实施例的训练命名实体识别模型的示意图;
图6示意性示出了本发明实施例的将文本实体与标识文本的标记位置进行对比的示意图;
图7示意性示出了本发明实施例的文本合规检测的整体流程示意图;
图8示意性示出了根据本发明实施例的文本检测装置的框图;
图9示意性示出了用来实现上述文本检测方法的电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
为了解决上述问题,本发明实施例中首先提出一种文本检测方法,该文本检测方法可以应用于对各种文档中的文本进行合规检测的处理场景中。该文本检测方法的执行主体可以为服务器,参考图1所示,该文本检测方法可以包括步骤S110、步骤S120、、步骤S130以及步骤S140。
其中:
在步骤S110中,对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;
在步骤S120中,通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;
在步骤S130中,若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;
在步骤S140中,若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
在本发明的示例实施例所提供的技术方案中,一方面,可以先通过训练好的分类模型确定目标待检测文本是否属于预设类型,并在属于预设类型时根据识别后的目标待检测文本和原本标记的标识文本进行对比从而进行合规检测,或者是在不属于预设类型时根据训练好的命名实体识别模型得到的目标待检测文本的文本实体以及原本标记的标识文本进行对比从而进行合规检测,由于可融合分类模型和命名实体识别模型对文本进行识别,能够准确地确定待识别文本是否合规,提高识别准确率。另一方面,通过训练好的分类模型和命名实体识别模型,可实现自动识别文本的功能,对目标待检测文本进行合规检测,减少了人工审核的操作,提高了效率,节约了成本。
接下来,结合附图对本发明实施例中的文本检测方法进行进一步解释说明。
在步骤S110中,对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记。
本发明实施例中,待检测文本可以为在线文本或者是离线存储的本地文本,具体可以为任意以文字形式表示的整个或者是部分文档,例如可以为合同、书写文档、教学文档等等,此处不作特殊限定。待检测文本可以为word文档的形式。目标待检测文本指的是经过解析的待检测文本。标识文本可以为目标待检测文本中与其他显示形式不同的文本,例如目标待检测文本中的粗体文本、斜体文本、放大文本或者是其它特殊显示的文本,本发明实施例中,以标识文本为粗体文本为例进行说明。
目标待检测文本指的是经过解析处理后的文档,解析处理主要包括对待检测文本进行分句以及预处理操作。其中,可通过程序对整个文档进行快速准确地分句。进一步地,在对文档进行分句后,可以对文本进行预处理操作。此处的预处理操作包括但不限于去掉特殊字符、繁写转简写、英文大写转小写等操作。通过对文本进行预处理操作,可以使得到的目标待检测文本更规范,更易于处理。基于此,在后续处理过程中,目标待检测文本指的是每个句子包含的文本。
在得到目标待检测文本后,可对目标待检测文本中存在的标识文本进行标记,得到标识文本的标记位置,以对标识文本所在的位置进行准确定位标记。具体而言,对标识文本进行标记可以包括以下两种情形:情形一、若所述标识文本为所述目标待检测文本中的全部文本,则为所述标识文本添加第一标记,并确定所述标识文本的标记位置。也就是说,如果句子中全部是标识文本,则可以为这些标识文本添加第一标记,第一标记例如可以为“1”或者是为其他数字或字母等等。对于添加了第一标记的标识文本而言,由于可能无法根据分类模型判断有些句子是否为标识文本,但是在用命名实体识别模型时可能将整个句子识别成一个标识文本,所以需对添加第一标记的句子做如下处理:记录标识文本的开始位置和结束位置,并将其标记位置确定为标记(0,length-1),此处的length表示句子的长度。
情形二、若所述标识文本为所述目标待检测文本中的部分文本,则为所述标识文本添加第二标记,并确定所述标识文本的标记位置。也就是说,如果句子中只有部分是标识文本,则可以为这些标识文本添加第二标记,第二标记例如可以为“0”或者是为其他与第一标记不同的数字或字母等等。对添加第二标记的句子,对句子中的标识文本(被部分加粗的文本),记录标识文本的开始位置和结束位置,其标记位置为(start_index,end_index),例如句子“保险金申请人请求赔偿时,应向保险人提供下列证明和资料。”,标记为(0,5)。另外,对句子中标识文本以外的文本,记录开始位置和结束位置,其标记位置为(None,None)。
本发明实施例中,通过对标识文本进行标记,能够准确地确定标识文本的位置,以便于基于标记位置准确地对目标待检测文本进行合规检测。
在步骤S120中,通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果。
本发明实施例中,分类模型用于对目标待检测文本进行分类,以得到分类结果。分类结果一般可以为全部为粗体类型、部分为粗体类型以及全部为非粗体类型。具体地,可以将目标待检测文本输入训练好的分类模型,得到其属于某一种类型的分类结果。为了得到更准确的分类结果,可在步骤S120之前,得到一个训练好的分类模型。
图2中示意性示出了分类模型训练流程图,参考图2中所示,得到训练好的分类模型的过程可以如下步骤:
步骤S210,获取第一样本数据,并将所述第一样本数据输入embedding层生成对应的词向量序列。
本发明实施例中,第一样本数据指的是从历史检测文本中获取的用于训练分类模型的部分文本,即第一样本数据是已经得知是否为粗体文本的文本数据。历史检测文本指的是已得知是否为粗体文本的历史检测的文档。
在得到第一样本数据之后,可将第一样本数据输入embedding层生成对应的词向量序列,如图3中所示,具体包括以下步骤S310至步骤S340,其中:
步骤S310,对历史检测文本进行预处理,并将预处理后的历史检测文本确定为正样本和负样本,以得到所述第一样本数据。
本发明实施例中,在获取第一样本数据之前,可以先对历史检测文本进行处理。具体地,可以对所述历史检测文本进行分句,并对分句后的历史检测文本进行格式化处理;将所述格式化后处理后的历史检测文本按照字进行分割,以得到预处理后的历史检测文本。具体而言,将所有的文档进行分句,作为训练模型的语料;载入语料进行数据格式化处理,格式化包括去掉特殊字符、繁写转简写、英文大写转小写等;将格式化处理后的所有的语料按字分割,得到预处理后的历史检测文本。如此一来,预处理后的历史检测文本也是按字分割好的句子。
在得到预处理后的历史检测文本后,可根据这些文本得到第一样本数据。第一样本数据具体可以包括正样本和负样本。具体可以将粗体文本包括全部历史检测文本的句子标注为正样本,其他的句子全部标注为负样本。
举例而言,提取保险合同中的所有条款,将所有的保险条款进行分句,作为训练模型的初始语料;将生成的每个句子的文本按照句子全部被加粗、句子部分文本被加粗、句子全部没有被加粗分为三类,且分别记为A_Bold、P_Bold、N_Bold。对归类后的历史检测文本进行格式化处理,包括去掉特殊字符、繁写转简写、英文大写转小写等。将格式化处理后的所有的语料按字分割,以得到预处理后的历史检测文本。接下来,可将预处理后的历史检测文本中被全部加粗的句子(A_Bold)标注成正样本,其他的句子(P_Bold、N_Bold)全部标注成负样本,以得到第一样本数据。
步骤S320,根据所述预处理后的历史检测文本得到词向量。
本发明实施例中,将所述预处理后的历史检测文本通过word2vec词嵌入算法训练所述词向量。在对训练预料进行数据预处理和数据标注后,需要预先训练词向量,将按字分割好的预处理后的历史检测文本通过word2vec词嵌入算法预先训练词向量,词向量供训练分类模型、命名实体识别模型和应用阶段使用。该网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络的隐藏层。
步骤S330,对所述预处理后的历史检测文本进行序列化,得到序列历史检测文本。
本发明实施例中,序列化是指将对象的状态信息转换为可以存储或传输的形式的过程。此处的序列化指的是按字分割后的字可以用一个数字来表示,进而能够得到序列历史检测文本。
步骤S340,根据所述词向量以及所述序列历史检测文本构建embedding层,并将所述第一样本数据输入所述embedding层,以生成所述词向量序列。
本发明实施例中,在得到词向量和序列历史检测文本后,可根据二者构建分类模型的embedding层。分类模型是一个神经网络模型,其具体由一个embedding层、双向的长短时记忆模型(Bi-LSTM)层、最大池化层、线性层和一个分类层softmax组成。
线性的embedding层将输入的词向量,通过一个共享的矩阵映射为分布式的词向量,也就是说,embedding层就是把单词用向量来表达。在构建embedding层之后,可将标注的正样本和负样本组成的第一样本数据输入至embedding层中,以生成正样本和负样本对应的词向量序列。
继续参考图2所示,在步骤S220中,将所述词向量序列经过长短时记忆网络进行训练,得到上下文特征。
本发明实施例中,长短时记忆模型为双向的长短时记忆模型,由一个前向的LSTM和一个后向的LSTM构成的。利用双向的长短时记忆模型提取词向量序列(句子)的上下文特征,此过程是一个编码的过程,具体过程包括:
对步骤S210中得到的句子的词向量序列(x1,x2,...xn)分别进行从左到右和从右到左的LSTM编码处理后,分别得到了在两个方向上的每个时间步的隐藏层状态,前向隐藏层输出记为后向隐藏层输出为LSTM单元的计算公式包括公式(1)至公式(5):
it=σ(Wxixt+Whiht-1+Wcict-1+bi) 公式(1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) 公式(2)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) 公式(3)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) 公式(4)
ht=ot tanh(ct) 公式(5)
其中,σ是逻辑回归激活函数,xt是得到t时刻的词向量,it、ft、ot分别表示t时刻的输入门、遗忘门、输出门,ct和ct-1分别表示t时刻和t-1时刻的细胞单元的记忆流状态,ht表示t时刻隐藏层向量。bi、bf、bc、bo分别是输入门、遗忘门、输出门。记忆细胞的偏置参数,权值矩阵W的下标具有特殊意义,例如whi表示连接隐含层到输入门的权值矩阵。
在步骤S230中,对所述上下文特征采用最大池化操作来获得所述词向量序列的特征向量。
本发明实施例中,最大池化(max-pooling)即取局部接受域中值最大的点。对Bi-LSTM层采用max-pooling操作来获得输入的词向量序列的特征表示,它可以提取到词向量序列最有用的特征,即特征向量。
在步骤S240中,将所述特征向量依次输入线性层和分类层,以得到所述训练好的分类模型。
本发明实施例中,将得到的词向量序列对应的特征向量先输入线性层,再输入分类层,以对神经网络的每个层的权重参数进行调整,直至对第一样本数据的分类结果与人工分类的结果一致为止,即可得到训练好的分类模型。
继续参考图1所示,在步骤S130中,若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测。
本发明实施例中,在步骤S120的基础上,首先可判断得到的分类结果是否属于预设类型,如果分类结果为预设类型,则可以用“1”进行标记。其中,预设类型具体可以代表粗体类型,例如目标待检测文本中的全部文本均属于粗体文本。
如果目标待检测文本的分类结果属于预设类型,则可以将目标待检测文本与步骤S110中标记的标识文本进行对比,以对目标待检测文本进行合规检测。此处的合规检测指的是判断目标待检测文本是否为粗体文本,以及目标待检测文本中的粗体文本是否正确。图4中示意性示出了目标待检测文本与标识文本进行对比的流程图,参考图4中所示,主要包括步骤S410至步骤S430,其中:
步骤S410,根据标记位置获取所述标识文本,并判断所述目标待检测文本中的目标文本与所述标识文本是否一致。
本步骤中,目标文本指的是通过训练好的分类模型,从目标待检测文本中识别出来的粗体文本,即目标文本为根据分类模型得到的分类结果中标记为“1”的文本。可以根据标记位置准确地获取识别到事先标记的的标识文本,例如根据开始位置和结束位置标记(0,length-1)获取标识文本。进一步将获取的目标文本与事先确定的标识文本进行对比,看二者是否相同。
步骤S420,若所述目标文本与所述标识文本一致,则确定所述目标文本合规。
本步骤中,如果获取的目标待检测文本中标记为“1”的文本为“保险金申请人”,事先标记的开始位置和结束位置标记(0,5)之间的粗体文本为“保险金申请人”,则认为二者相同,进而可以确定目标文本是合规的。在确定合规时,可以用标签“合规”来表示。
步骤S430,若所述目标文本与所述标识文本不一致,则确定所述目标文本不合规。
本步骤中,如果获取的目标待检测文本中标记为“1”的文本为“保险金申请人”,事先标记的开始位置和结束位置标记(0,5)之间的粗体文本为“保险申请人金”,则认为二者不同,进而可以确定目标文本是不合规的。在确定合规时,可以用标签“不合规”来表示。
需要说明的是,也可以将目标文本的标记位置和标识文本的标记位置进行对比,进而在标记位置相同时判断内容是否相同,此处不作详细描述。
继续参考图1中所示,在步骤S140中,若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
本发明实施例中,如果目标待检测文本不属于预设类型,则继续对目标待检测文本进行合规检测。具体地,可将目标待检测文本输入训练好的命名实体识别模型进行序列标注,以判断是否得到文本实体。如果识别出文本实体,则表明目标待检测文本中有部分文本需要设置为预设类型。例如如果有识别出来的粗体文本实体,表示句子中有部分文本需要加粗。进一步地根据文本实体和标识文本的对比结果再次对目标待检测文本进行合规检测,并融合分类模型和命名实体识别模型对目标待检测文本进行准确地识别,以精准地识别其中的粗体文本,提高合规检测的准确率。
命名实体识别模型是指从目标待检测文本中识别具有特定类别的实体,例如人名、地名、机构名、专有名词等。命名实体识别模型的问题通常被抽象为序列标注问题,所谓序列标注是指对序列中每个符号赋予一个特定的标签,其本质上是对序列中每个元素根据上下文内容进行分类的问题。
为了得到更准确的分类结果,可在步骤S140之前,得到一个训练好的命名实体识别模型,以通过训练好的命名实体识别模型确定出目标待检测文本中存在的文本实体。此处的文本实体具体要识别的目标来确定,例如若识别目标为粗体文本,则文本实体为粗体文本实体;若识别目标为斜体文本,则文本实体为斜体文本实体。本发明实施例中,以文本实体为粗体文本实体或者是加粗文本实体为例进行说明。
图5中示意性示出了训练命名实体识别模型的示意图,参考图5中所示,主要包括步骤S510至步骤S530,其中:
步骤S510,获取第二样本数据,所述第二样本数据根据序列标注规则得到。
本步骤中,第二样本数据用于训练命名实体识别模型,且第二样本数据是通过序列标注方式得到的。具体地,将预处理后的历史检测文本中被部分加粗的句子(部分粗体文本)按照命名实体识别数据标注的BIO标注方式进行标注。标签为B-BOLD,I-BOLD,O的形式,分别代表粗体文本的开始符号,粗体文本的非开始符号,非粗体文本符号,例如句子:保险金申请人请求赔偿时,应向保险人提供下列证明和资料。被标注成:B-BOLD,I-BOLD,I-BOLD,I-BOLD,I-BOLD,I-BOLD,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O。
步骤S520,将所述第二样本数据输入长短时记忆网络,以得到所述第二样本数据中的每个字分别用序列标签标注的概率。
本步骤中,命名实体识别模型由一个embedding层、双向的长短时记忆模型(Bi-LSTM)层和一个条件随机场层组成。传统的神经网络的输入和输出是相互独立的,但是在序列标注中,后面的输出和前面的内容是相互关联的,即输出标签之间是强依赖的,所以此处也采用与分类模型一样的embedding层和Bi-LSTM网络结构。可以将步骤S510中得到的第二样本数据输入Bi-LSTM网络结构,则该长短时记忆网络的输出值表示的是:第二样本数据中包括的每个字分别用序列标签(B-BOLD,I-BOLD,O)标注的概率。
得到隐藏层的输出直接接入一个线性层进行线性变换,将每个隐藏层状态变换成一个1Xk维的向量如果再直接接入一个softmax函数就是分别对每个词汇独立地进行序列标注,然而序列标注不能看成是简单的分类问题,因为每个单词之间是相互影响的,如果看成分类问题,会造成信息丢失;正是标签之间的依赖关系,如I-BOLD后面不能跟另一种实体的开始标识符B-MOV,所以引入条件随机场层来对整个句子的输出建模。
步骤S530,将所述概率和标签之间的转移概率输入条件随机场层进行句子级别的序列标注,以得到所述训练好的命名实体识别模型。
本步骤中,标签之间的转移概率指的是某一个标签转换为另一个标签的概率,例如标签B-BOLD转换为标签I-BOLD的概率。接入条件随机场层,通过融合Bi-LSTM网络结构的输出值和标签之间的转移概率来进行句子级别的序列标注;具体过程包括:
定义一个句子X用一个序列标签l标注的分数为:
其中,A为条件随机场层的标签之间的转移概率,作为一个学习的参数,f是由Bi-LSTM网络结构的输出值,将上式通过softmax层归一化后得到概率为:
所以,在训练模型的过程中,优化目标为最小化对数似然函数,如下表示:
模型预测时使用动态规划的维特比算法来求解最优路径,公式为:
条件随机场层通过结合Bi-LSTM网络结构的输出和标签之间的转移概率来进行句子级别的序列标注,直至标注的结果与事先人工确定的历史检测文本的序列标注一致为止,以得到性能较好的训练好的命名实体识别模型。
图6示意性示出了所述文本实体与标识文本的对比结果对所述目标待检测文本进行合规检测包括步骤S610至步骤S630,其中:
步骤S610,根据文本实体的标记位置获取所述文本实体;
步骤S620,若所述文本实体与所述标识文本一致,则确定所述文本实体合规;
步骤S630,若所述文本实体与所述标识文本不一致,则确定所述文本实体不合规。
本发明实施例中,通过训练好的命名实体识别模型进行粗体文本识别,输出一个标签序列;进一步将标签序列转换成文本实体,且获取文本实体的标记位置,文本实体的标记位置可以包括开始位置和结束位置。如果没有文本实体,则开始位置和结束位置标记为(None,None)。
在此基础上,可以根据文本实体的标记位置快速提取文本实体,与步骤S110中获得的标识文本做对比,如果文本实体与标识文本完全一致就确定文本实体合规,并返回“合规”的标签。如果文本实体与标识文本不一致就确定文本实体不合规,并返回“不合规”的标签。
本发明实施例中,将训练好的分类模型和训练好的命名实体识别模型,根据目标待检测文本与标识文本的对比结果来对目标待检测文本进行识别,能够准确地识别目标待检测文本中的粗体文本,并且能够准确地确定粗体文本是否合规。另外,用分类模型检测句子是否应该全部被加粗,利用命名实体识别方法检测出句子中部分被加粗的文本,并将命名实体识别方法和文本分类方法相融合,智能化地应用在文本合规性检测中的粗体文本检测中,极大地减少了文本审核的人力成本和时间成本,提高了操作效率。
图7中示意性示出了对文本进行合规检测的整体流程图,参考图7中所示,主要包括以下步骤:
步骤S701,对待检测文本进行解析,得到目标待检测文本。
步骤S702,将目标待检测文本输入训练好的分类模型,以判断是否为预设类型,预设类型可以为全部属于粗体文本。
步骤S703,若判断目标待检测文本为粗体文本,则与事先标记的标识文本进行对比,以确定目标待检测文本是否合规。
步骤S704,若判断目标待检测文本为非粗体文本,则将目标待检测文本输入训练好的命名实体识别模型。
步骤S705,通过训练好的命名实体识别模型确定文本实体。文本实体为粗体文本实体。
步骤S706,将文本实体与事先标记的标识文本进行对比,以确定文本实体是否合规。
图7中的技术方案,可以先通过训练好的分类模型确定目标待检测文本是否属于预设类型,并在属于预设类型时根据识别后的目标待检测文本和原本标记的标识文本进行对比从而进行合规检测,或者是在不属于预设类型时根据训练好的命名实体识别模型得到的目标待检测文本的文本实体以及原本标记的标识文本进行对比从而进行合规检测,由于可融合分类模型和命名实体识别模型对文本进行识别,能够准确地确定待识别文本是否合规,提高识别准确率。
本发明实施例中,还提供了一种文本检测装置,参考图8中所示,该装置800主要包括:
标识文本确定模块801,可以用于对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;
文本分类模块802,可以用于通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;
第一检测模块803,可以用于若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;
第二检测模块804,可以用于若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
需要说明的是,本发明实施例的文本检测装置的各个功能模块与上述文本检测方法的示例实施例的步骤相同,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本发明的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图1中所示的步骤。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(ROM)9203。
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的文本检测方法。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
用于执行本发明操作的程序代码可以以一种或多种程序设计语言的任意组合来编写,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
Claims (10)
1.一种文本检测方法,其特征在于,包括:
对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;
通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;
若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;
若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
2.根据权利要求1所述的文本检测方法,其特征在于,在通过训练好的分类模型对所述目标待检测文本进行分类之前,所述方法还包括:
获取第一样本数据,并将所述第一样本数据输入embedding层生成对应的词向量序列;
将所述词向量序列经过长短时记忆网络进行训练,得到上下文特征;
对所述上下文特征采用最大池化操作来获得所述词向量序列的特征向量;
将所述特征向量依次输入线性层和分类层,以得到所述训练好的分类模型。
3.根据权利要求2所述的文本检测方法,其特征在于,获取第一样本数据,并将所述第一样本数据输入embedding层生成对应的词向量序列包括:
对历史检测文本进行预处理,并将预处理后的历史检测文本确定为正样本和负样本,以得到所述第一样本数据;
根据所述预处理后的历史检测文本得到词向量;
对所述预处理后的历史检测文本进行序列化,得到序列历史检测文本;
根据所述词向量以及所述序列历史检测文本构建所述embedding层,并将所述第一样本数据输入所述embedding层,以生成所述词向量序列。
4.根据权利要求1所述的文本检测方法,其特征在于,在通过训练好的命名实体识别模型对所述目标待检测文本进行序列标注以确定所述目标待检测文本的文本实体之前,所述方法还包括:
获取第二样本数据,所述第二样本数据根据序列标注规则得到;
将所述第二样本数据输入长短时记忆网络,以得到所述第二样本数据中的每个字分别用序列标签标注的概率;
将所述概率和标签之间的转移概率输入条件随机场层进行句子级别的序列标注,以得到所述训练好的命名实体识别模型。
5.根据权利要求1所述的文本检测方法,其特征在于,对所述目标待检测文本中存在的标识文本进行标记包括:
若所述标识文本为所述目标待检测文本中的全部文本,则为所述标识文本添加第一标记,并确定所述标识文本的标记位置;
若所述标识文本为所述目标待检测文本中的部分文本,则为所述标识文本添加第二标记,并确定所述标识文本的标记位置。
6.根据权利要求5所述的文本检测方法,其特征在于,将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测包括:
根据所述标记位置获取所述目标待检测文本中的标识文本;
若所述目标待检文本中的目标文本与所述标识文本一致,则确定所述目标文本合规;
若所述目标文本与所述标识文本不一致,则确定所述目标文本不合规。
7.根据权利要求1所述的文本检测方法,其特征在于,根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测包括:
根据文本实体的标记位置获取所述文本实体;
若所述文本实体与所述标识文本一致,则确定所述文本实体合规;
若所述文本实体与所述标识文本不一致,则确定所述文本实体不合规。
8.一种文本检测装置,其特征在于,包括:
标识文本确定模块,用于对待检测文本进行解析得到目标待检测文本,并将所述目标待检测文本中存在的标识文本进行标记;
文本分类模块,用于通过训练好的分类模型对所述目标待检测文本进行分类,以确定分类结果;
第一检测模块,用于若所述分类结果属于预设类型,则将所述目标待检测文本与所述标识文本进行对比,并根据对比结果对所述目标待检测文本进行合规检测;
第二检测模块,用于若所述分类结果不属于所述预设类型,则将所述目标待检测文本输入训练好的命名实体识别模型确定文本实体,并根据所述文本实体与所述标识文本的对比结果对所述目标待检测文本进行合规检测。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任意一项所述的文本检测方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088731.5A CN111079432B (zh) | 2019-11-08 | 2019-11-08 | 文本检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088731.5A CN111079432B (zh) | 2019-11-08 | 2019-11-08 | 文本检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079432A true CN111079432A (zh) | 2020-04-28 |
CN111079432B CN111079432B (zh) | 2023-07-18 |
Family
ID=70310743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911088731.5A Active CN111079432B (zh) | 2019-11-08 | 2019-11-08 | 文本检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079432B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930939A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本检测的方法及装置 |
CN112464660A (zh) * | 2020-11-25 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 文本分类模型构建方法以及文本数据处理方法 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112784594A (zh) * | 2020-06-05 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置、电子设备及可读存储介质 |
CN113704467A (zh) * | 2021-07-29 | 2021-11-26 | 大箴(杭州)科技有限公司 | 基于数据模板的海量文本监控方法及装置、介质、设备 |
CN113705194A (zh) * | 2021-04-12 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 简称抽取方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060277173A1 (en) * | 2005-06-07 | 2006-12-07 | Microsoft Corporation | Extraction of information from documents |
CN107680579A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
US20180336181A1 (en) * | 2017-05-17 | 2018-11-22 | International Business Machines Corporation | Natural language processing of formatted documents |
CN110134961A (zh) * | 2019-05-17 | 2019-08-16 | 北京邮电大学 | 文本的处理方法、装置和存储介质 |
-
2019
- 2019-11-08 CN CN201911088731.5A patent/CN111079432B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060277173A1 (en) * | 2005-06-07 | 2006-12-07 | Microsoft Corporation | Extraction of information from documents |
US20180336181A1 (en) * | 2017-05-17 | 2018-11-22 | International Business Machines Corporation | Natural language processing of formatted documents |
CN107680579A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN110134961A (zh) * | 2019-05-17 | 2019-08-16 | 北京邮电大学 | 文本的处理方法、装置和存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784594A (zh) * | 2020-06-05 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置、电子设备及可读存储介质 |
CN112784594B (zh) * | 2020-06-05 | 2023-05-26 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置、电子设备及可读存储介质 |
CN111930939A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本检测的方法及装置 |
CN112464660A (zh) * | 2020-11-25 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 文本分类模型构建方法以及文本数据处理方法 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN113705194A (zh) * | 2021-04-12 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 简称抽取方法及电子设备 |
CN113704467A (zh) * | 2021-07-29 | 2021-11-26 | 大箴(杭州)科技有限公司 | 基于数据模板的海量文本监控方法及装置、介质、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111079432B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
US10372821B2 (en) | Identification of reading order text segments with a probabilistic language model | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US10713519B2 (en) | Automated workflows for identification of reading order from text segments using probabilistic language models | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN110245348A (zh) | 一种意图识别方法及系统 | |
CN111783450B (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
Singh et al. | HINDIA: a deep-learning-based model for spell-checking of Hindi language | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN112614559A (zh) | 病历文本处理方法、装置、计算机设备和存储介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
US11880664B2 (en) | Identifying and transforming text difficult to understand by user | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN113761895A (zh) | 文本摘要的生成方法、装置、电子设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN111666405B (zh) | 用于识别文本蕴含关系的方法和装置 | |
US20120197894A1 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN111339760A (zh) | 词法分析模型的训练方法、装置、电子设备、存储介质 | |
CN114218954B (zh) | 病历文本中疾病实体和症状实体阴阳性的判别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |