CN111708882A - 基于Transformer的中文文本信息缺失的补全方法 - Google Patents
基于Transformer的中文文本信息缺失的补全方法 Download PDFInfo
- Publication number
- CN111708882A CN111708882A CN202010476968.7A CN202010476968A CN111708882A CN 111708882 A CN111708882 A CN 111708882A CN 202010476968 A CN202010476968 A CN 202010476968A CN 111708882 A CN111708882 A CN 111708882A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- missing
- information
- completion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000000873 masking effect Effects 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 16
- 238000012706 support-vector machine Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000010276 construction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法,对待处理的中文文本公开语料的人工预处理,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务,来帮助中文自然语言处理的文本预处理更加规范,使中文自然语言处理任务准确率进一步提高。
Description
技术领域
本发明属于计算机人工神经网络自然语言处理技术领域,具体涉及基于Transformer编码器的中文文本信息缺失的补全方法。
背景技术
随着自然语言处理技术的逐步发展,各式各样的自然语言处理任务进入了人们的视野,人们使用这些自然语言处理技术来辅助人们处理多项任务,例如:文本分类、智能问答、知识库自动构建、自然语言机器阅读理解、自然语言生成等。而这些任务的核心,都在于使机器能够尽可能的学习文本的语义信息,获得知识。在中文文本中,大致有36%的主语缺失现象,而英文文本仅具有4%。相比于完整的短文本句子结构,缺失主语的现象虽然不会使人类在对文本语义理解方面产生影响,但却对中文的自然语言处理产生了巨大的影响,极大的阻碍了机器对于自然语言文本的理解。大部分情况下,机器在面对自然语言文本时,由于缺乏先验知识,会仅仅根据整句话的上下文语境信息来判断某个词或者某个字的语义,但由于中文文本中大量存在的信息缺失,使得机器的理解产生相应的偏差,从而影响下游任务的准确性,例如,在问答方面,错误语义信息的理解使得问答结果的反馈产生错误。
发明内容
本发明的目的在于提供一种基于Transformer编码器的中文文本信息缺失补全方法,解决中文文本中大量存在的文本缺失现象,使得中文自然语言处理变得更加精准。
本发明所采用的技术方案是,基于Transformer编码器的中文文本信息缺失的补全方法,包括以下步骤:
步骤1:对待处理的中文文本公开语料的人工预处理,以形成供模型训练的监督数据;标记主要采用对中文文本输入关键词的方法;对于一个给定的未处理的自然文本语料,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,然后对每一句语料人工判断是否存在主语缺失现象,如果存在,则在文本的末尾处添加[tag]标识,表示文本需要进行文本信息缺失补全处理;另外,每一条短句中的前半句和后半句将添加[sep]标识符为本句的短句分割标签;
步骤2:短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,分类结果将决定文本是否进行信息缺失补全;采用SVM对标记的文本进行学习,最终将文本分类为合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类;
步骤3:通过大量标记文本的训练,SVM会将数据合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类,其中被分类为“需要进行实体补全”的文本batch,将被输入进入文本信息缺失补全模型,所述文本信息缺失补全模型采用MLM遮盖预训练思想和TransformerEncoder编码器构建的,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;一方面,在模型训练阶段,结果的产生被用于计算交叉熵来完成模型的训练,另一方面,在模型使用阶段,结果的产生被用于文本缺失信息的最终生成;
步骤4:文本缺失信息预测生成的结果被优化方法进行模型的训练;优化方法采用SGD随机梯度下降,SGD将避免模型的目标函数的求解陷入局部最优解,使得模型求解的结果逼近全局最优解,实现文本信息的补全。
步骤1中,所述预处理包括数据规范化和数据标记。
步骤1中,所述文本标记的方法,主要采用BERT模型的文本标记方法。
步骤2中,词向量采用了基于维基百科语料训练的基础版BERT词向量,分类器采用SVM,SVM核函数的选取采用高斯核,高斯核函数使得SVM可以将任意数据映射为空间可分的维度;为避免分类器过拟合导致模型失效,需要在模型训练中控制参数。
步骤3中,通过模型1传出的文本词向量将被传入到模型2,传入后,加入了位置向量信息postionEncoding;最终形成供模型2使用的短句文本向量;[sep]分隔符将通过查词典表转化为int型数值信息,最终形成文本短句的Tensor张量;模型在训练前,将进行随机的[mask]标签替换,替换采用随机数的形式,对文本单词序号进行随机,随机的结果将遮盖这个词或字,并替换为[mask]标签。
本发明的有益效果在于:
一种基于Transformer编码器的中文文本信息缺失补全方法通过使用自编码模型AE和MLM训练思想,构建出了一个标准的用于中文文本信息缺失补全的模型,可以识别出一条中文短句是否需要进行缺失信息补全,并能生成补全结果,方便进行下游自然语言处理任务的数据处理,完善自然语言处理文本语义信息,避免下游任务在数据导入模型前文本数据的语义偏差。本发明有效的完善了自然语言处理数据预处理的步骤,得益于Transformer自注意力机制的优异表现能力,本发明提高了机器对自然语言的语义理解能力。本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务,来帮助中文自然语言处理的文本预处理更加规范,使中文自然语言处理任务准确率进一步提高。
附图说明
图1是本发明基于Transformer编码器的中文文本信息缺失的补全方法主要流程。
图2是本发明基于Transformer编码器的中文文本信息缺失的补全方法模型具体输入和训练细节。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于Transformer编码器的中文文本信息缺失的补全方法,包括以下步骤:
步骤1:对中文文本公开语料的人工预处理,以形成供模型训练的监督数据。标记主要采用对中文文本输入关键词的方法。对于一个给定的未处理的自然文本语料,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,然后对每一句语料人工判断是否存在主语缺失现象,如果存在,则在文本的末尾处添加[tag]标识,表示文本需要进行文本信息缺失补全处理。另外,每一条短句中的前半句和后半句将通过自动化的方式,添加[sep]标识符为本句的短句分割标签。
步骤2:短句通过minibatch(一种自然语言处理方法)的方式转变为BERT词向量(一种深度学习自然语言处理方法),产生的词向量将传入SVM(支持向量机)进行文本二分类任务,分类结果将决定文本是否进行信息缺失补全。
步骤3:被分类为“需要进行实体补全”的文本batch,将被输入进入本文提出的文本信息缺失补全模型,这个模型是基于MLM遮盖预训练思想和TransformerEncoder编码器构建的,模型将通过训练决定缺失位置的信息补全结果;其本质是采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;一方面,在模型训练阶段,结果的产生被用于计算交叉熵来完成模型的训练,另一方面,在模型的测试和使用阶段,结果的产生被用于文本缺失信息的最终生成。
步骤4:文本缺失信息预测生成的结果被优化方法进行模型的训练。优化方法采用SGD随机梯度下降,SGD将避免模型的目标函数的求解陷入局部最优解,使得模型求解的结果逼近全局最优解。
步骤1中,文本标记的方法,主要采用BERT模型的文本标记方法;这样的标记方法相比于BIO标记方法,降低了人工标记的复杂度,提升了人工标记效率。
步骤2中,词向量采用BERT,分类器采用SVM,SVM核函数选取高斯核,高斯核函数使得SVM可以将任意数据映射为空间可分的维度;为避免分类器过拟合导致模型失效,需要在模型训练中合理控制参数。
数据进入模型1处理过程如下,例如,对于“建筑施工时,住宅的楼梯的梯段的净宽度不应小于1.1m,梯段的一边设有栏杆时,梯段的净宽度不应小于1m。”这样一句自然语言文本。
a、首先通过计算机查表,找出这句话中每一个单字在词典中的int数值,这个数值代表了这个单字在词表中的位置信息,查表后,将形成[327,112,5123,4345,12341,22313,564,2543,8567,2345……]的1*46维向量,这个向量中的每一个数值代表了这句话的单字,而46代表了这句话的文本长度,长度不包括单句中的标点符号。
b、将这个向量输入进入BERT模型,模型的输出将产生一个n*46*768维的张量,其中n代表了当前句子的标号,46代表了当前短句的长度,768则表示了词嵌入维度,形成的张量如下所示:
Tensor([
[4516,6253,5676,3438,4596,2483,3745,9503,5567,2345,6235……]
[1111,5546,7805,5861,9674,868,4686,6567,5926,4583……]
[1351,4693,8469,2355,8457,8563,9235,759,3468,0845……]
......
],46*768)
c、在经过上述过程后,形成的句子张量被传入到LR或SVM分类器中,并形成最终机器预测的分类结果,分类结果是一个概率和为1的概率分布,较大的数值代表了最终的分类结果,分类结果为“True”的单句,将被传入模型2进行缺失信息生成。
步骤3中,通过模型1传出的文本词向量将被传入到模型2,传入后,加入了位置向量信息postionEncoding。最终形成供模型2使用的短句文本向量。[sep]分隔符将通过查词典表转化为int型数值信息,最终形成文本短句的Tensor张量。模型在训练前,将进行随机的[mask]标签替换,替换采用随机数的形式,对文本单词序号进行随机,随机的结果将遮盖这个词或字,并替换为[mask]标签。
由步骤2中模型1传出的张量,将被传入到模型2中,传入后,将进行位置信息、段位置信息的拼接。拼接示例如下:
a、对位置向量信息的拼接,拼接主要采用了对应词嵌入维度大小的初始化向量拼接,对原本的n*46*768维张量进行拼接。使得张量最终形成n*768*46*768维的张量,拼接的1代表了位置维度,位置初始为0,将随着模型的训练进行数值的变化。
b、padding操作。为了让模型具有更好的语义表示能力,将词向量变为n*46*768维,最后一维的数值多出的部分进行padding为0的操作。
c、对文本短句的张量的词进行随机mask操作,[mask]标签对应的向量值将对短句中的词或字进行替换,替换采用随机数产生的办法,产生的随机数数值决定替换词或字的位置,原则上对每个单句仅替换2个[mask]标签,这是考虑过多噪声的引入将使得模型的学习能力变差。
d、[sep]标签的引入,[sep]标签主要引入位置为三个:
1、短句中的前半句子句和后半句子句之间
2、短句中的顿号后
3、短句中“和”标识符后
这主要是考虑中文信息缺失主要发生在以上位置,[sep]标签的引入是为了模型对当前位置文本信息的生成。
步骤4中,SGD随机梯度下降方法避免了模型陷入局部最优解。
通过模型的学习,将生成如下例所示规格的短句结果:
“[建筑]施工时,住宅的楼梯的梯段的净宽度不应小于1.1m,[住宅的楼梯]梯段的一边设有栏杆时,[住宅的楼梯]梯段的净宽度不应小于1m。”
[住宅的楼梯]括号中的信息为模型对[sep]标签的替换生成,[建筑]为模型对[mask]标签的替换生成。生成的结果将通过模型目标函数进行计算,并将结果传入交叉熵损失函数进行自监督计算,计算出的损失值传入模型进行迭代。
模型的目标函数定义如下,其目标在于通过上下文信息预测[mask]和[seq]并将其生成的正确的结果的概率进行最大化:
其中:
xm代表了未被替换为[mask]标签的上下文。
xr代表了被替换为[mask]标签的单字。
xq代表了[seq]标签需要预测的单字。
xs代表了除[seq]标签以外的上下文表示。
通过推导,可以得到如下目标函数的最终形式:
其中:
mt代表了当前字位置是否进行了[mask]标签替换。
nt代表了当前句是否进行了需要进行信息缺失预测。
Hθ代表了除去[mask]的上下文的嵌入表示。
对于构造好的目标函数,通过SGD随机梯度下降法,对输出文本的张量中的归一化的概率分布进行交叉熵运算,即可完成损失值的计算,优化模型的参数。
通过不断迭代训练的模型最终将具有文本信息缺失补全的能力,对于上述示例,将产生“建筑施工时,住宅的楼梯的梯段的净宽度不应小于1.1m,住宅的楼梯梯段的一边设有栏杆时,住宅的楼梯梯段的净宽度不应小于1m。”的最终结果,每一个子句的缺失信息都得以补全。这样一来,在自然语言处理的下游任务进行时,句子的语义信息就具有更加完整语义的特性,方便下游任务的进行。
Claims (5)
1.基于Transformer编码器的中文文本信息缺失的补全方法,其特征在于,包括以下步骤:
步骤1:对待处理的中文文本公开语料的人工预处理,以形成供模型训练的监督数据;标记主要采用对中文文本输入关键词的方法;对于一个给定的未处理的自然文本语料,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,然后对每一句语料人工判断是否存在主语缺失现象,如果存在,则在文本的末尾处添加[tag]标识,表示文本需要进行文本信息缺失补全处理;另外,每一条短句中的前半句和后半句将添加[sep]标识符为本句的短句分割标签;
步骤2:短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,分类结果将决定文本是否进行信息缺失补全;采用SVM对标记的文本进行学习,最终将文本分类为合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类;
步骤3:通过大量标记文本的训练,SVM会将数据合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类,其中被分类为“需要进行实体补全”的文本batch,将被输入进入文本信息缺失补全模型,所述文本信息缺失补全模型采用MLM遮盖预训练思想和TransformerEncoder编码器构建的,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;一方面,在模型训练阶段,结果的产生被用于计算交叉熵来完成模型的训练,另一方面,在模型使用阶段,结果的产生被用于文本缺失信息的最终生成;
步骤4:文本缺失信息预测生成的结果被优化方法进行模型的训练;优化方法采用SGD随机梯度下降,SGD将避免模型的目标函数的求解陷入局部最优解,使得模型求解的结果逼近全局最优解,实现文本信息的补全。
2.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法,其特征在于,步骤1中,所述预处理包括数据规范化和数据标记。
3.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法,其特征在于,步骤1中,所述文本标记的方法,主要采用BERT模型的文本标记方法。
4.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法,其特征在于,步骤2中,所述词向量采用了基于维基百科语料训练的基础版BERT词向量,分类器采用SVM,SVM核函数的选取采用高斯核,高斯核函数使得SVM可以将任意数据映射为空间可分的维度;为避免分类器过拟合导致模型失效,需要在模型训练中控制参数。
5.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法,其特征在于,步骤3中,所述通过模型1传出的文本词向量将被传入到模型2,传入后,加入了位置向量信息postionEncoding;最终形成供模型2使用的短句文本向量;[sep]分隔符将通过查词典表转化为int型数值信息,最终形成文本短句的Tensor张量;模型在训练前,将进行随机的[mask]标签替换,替换采用随机数的形式,对文本单词序号进行随机,随机的结果将遮盖这个词或字,并替换为[mask]标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010476968.7A CN111708882B (zh) | 2020-05-29 | 2020-05-29 | 基于Transformer的中文文本信息缺失的补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010476968.7A CN111708882B (zh) | 2020-05-29 | 2020-05-29 | 基于Transformer的中文文本信息缺失的补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708882A true CN111708882A (zh) | 2020-09-25 |
CN111708882B CN111708882B (zh) | 2022-09-30 |
Family
ID=72537501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010476968.7A Active CN111708882B (zh) | 2020-05-29 | 2020-05-29 | 基于Transformer的中文文本信息缺失的补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708882B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199362A (zh) * | 2020-10-14 | 2021-01-08 | 北京理工大学 | 一种mes背景下的数据库数据缺失的填补方法及系统 |
CN112560477A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112559702A (zh) * | 2020-11-10 | 2021-03-26 | 西安理工大学 | 基于Transformer的土木建筑信息领域自然语言问题生成方法 |
CN112560476A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112580310A (zh) * | 2020-12-28 | 2021-03-30 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN113158648A (zh) * | 2020-12-09 | 2021-07-23 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN113780006A (zh) * | 2021-09-27 | 2021-12-10 | 广州金域医学检验中心有限公司 | 医学语义匹配模型的训练方法、医学知识匹配方法及装置 |
CN114138979A (zh) * | 2021-10-29 | 2022-03-04 | 中南民族大学 | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 |
CN115618863A (zh) * | 2022-12-20 | 2023-01-17 | 中国科学院自动化研究所 | 文本事件序列生成方法、装置、设备和存储介质 |
CN117056859A (zh) * | 2023-08-15 | 2023-11-14 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
CN117116476A (zh) * | 2023-07-04 | 2023-11-24 | 中国医学科学院阜外医院 | 下游任务预测方法、装置及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132526A1 (en) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Structured Knowledge Modeling and Extraction from Images |
CN108717405A (zh) * | 2018-04-18 | 2018-10-30 | 西安理工大学 | 基于思维导图的楼梯设计规范缺省主语的补全方法 |
CN109977228A (zh) * | 2019-03-21 | 2019-07-05 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
EP3637428A1 (en) * | 2018-10-12 | 2020-04-15 | Siemens Healthcare GmbH | Natural language sentence generation for radiology reports |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
-
2020
- 2020-05-29 CN CN202010476968.7A patent/CN111708882B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132526A1 (en) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Structured Knowledge Modeling and Extraction from Images |
CN108717405A (zh) * | 2018-04-18 | 2018-10-30 | 西安理工大学 | 基于思维导图的楼梯设计规范缺省主语的补全方法 |
EP3637428A1 (en) * | 2018-10-12 | 2020-04-15 | Siemens Healthcare GmbH | Natural language sentence generation for radiology reports |
CN109977228A (zh) * | 2019-03-21 | 2019-07-05 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
Non-Patent Citations (5)
Title |
---|
GO EUN HEO 等: "A Flexible Text Mining System for Entity and Relation Extraction in PubMed", 《ACM》 * |
丁建辉等: "知识图谱补全算法综述", 《信息通信技术》 * |
刘思琴等: "基于BERT的文本情感分析", 《信息安全研究》 * |
张波等: "SVM在中压配网停电事件补全中的应用研究", 《电力工程技术》 * |
徐铮浩: "如何使用NLP高效解析语言文字", 《电子技术与软件工程》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199362A (zh) * | 2020-10-14 | 2021-01-08 | 北京理工大学 | 一种mes背景下的数据库数据缺失的填补方法及系统 |
CN112559702A (zh) * | 2020-11-10 | 2021-03-26 | 西安理工大学 | 基于Transformer的土木建筑信息领域自然语言问题生成方法 |
CN112559702B (zh) * | 2020-11-10 | 2022-09-30 | 西安理工大学 | 基于Transformer的土木建筑信息领域自然语言问题生成方法 |
CN112560477A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112560476A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN113158648A (zh) * | 2020-12-09 | 2021-07-23 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN113158648B (zh) * | 2020-12-09 | 2024-11-05 | 科大讯飞(北京)有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112560477B (zh) * | 2020-12-09 | 2024-04-16 | 科大讯飞(北京)有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112580310A (zh) * | 2020-12-28 | 2021-03-30 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112580310B (zh) * | 2020-12-28 | 2023-04-18 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN113780006B (zh) * | 2021-09-27 | 2024-04-09 | 广州金域医学检验中心有限公司 | 医学语义匹配模型的训练方法、医学知识匹配方法及装置 |
CN113780006A (zh) * | 2021-09-27 | 2021-12-10 | 广州金域医学检验中心有限公司 | 医学语义匹配模型的训练方法、医学知识匹配方法及装置 |
CN114138979B (zh) * | 2021-10-29 | 2022-09-16 | 中南民族大学 | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 |
CN114138979A (zh) * | 2021-10-29 | 2022-03-04 | 中南民族大学 | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 |
CN115618863A (zh) * | 2022-12-20 | 2023-01-17 | 中国科学院自动化研究所 | 文本事件序列生成方法、装置、设备和存储介质 |
CN117116476A (zh) * | 2023-07-04 | 2023-11-24 | 中国医学科学院阜外医院 | 下游任务预测方法、装置及计算机可读存储介质 |
CN117116476B (zh) * | 2023-07-04 | 2023-12-19 | 中国医学科学院阜外医院 | 下游任务预测方法、装置及计算机可读存储介质 |
CN117056859A (zh) * | 2023-08-15 | 2023-11-14 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
CN117056859B (zh) * | 2023-08-15 | 2024-05-10 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111708882B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN111143550B (zh) | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN113312453B (zh) | 一种面向跨语言对话理解的模型预训练系统 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN112560486B (zh) | 基于多层神经网络的电力实体识别方法、存储介质和设备 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN111310474A (zh) | 基于激活-池化增强bert模型的在线课程评论情感分析方法 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN110135457A (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN110852040B (zh) | 一种标点预测模型训练方法及文本标点确定方法 | |
CN110209822A (zh) | 基于深度学习的学术领域数据相关性预测方法、计算机 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN109753660A (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110826335A (zh) | 一种命名实体识别的方法和装置 | |
CN112183064A (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN114692568B (zh) | 一种基于深度学习的序列标注方法及应用 | |
CN115630140B (zh) | 一种基于文本特征融合的英语阅读材料难度判断的方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN114139497A (zh) | 一种基于bertsum模型的文本摘要提取方法 | |
CN112613316A (zh) | 一种生成古汉语标注模型的方法和系统 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |