CN107622050A - 基于Bi‑LSTM和CRF的文本序列标注系统及方法 - Google Patents
基于Bi‑LSTM和CRF的文本序列标注系统及方法 Download PDFInfo
- Publication number
- CN107622050A CN107622050A CN201710828497.XA CN201710828497A CN107622050A CN 107622050 A CN107622050 A CN 107622050A CN 201710828497 A CN201710828497 A CN 201710828497A CN 107622050 A CN107622050 A CN 107622050A
- Authority
- CN
- China
- Prior art keywords
- language material
- module
- lstm
- crf
- tuning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于Bi‑LSTM和CRF的文本序列标注系统及方法,系统包括学习模块和标注模块,标注模块包括分词模块、语料标注模块和调优模块,语料标注模块包括词性标注模块和实体识别模块;方法为将获取的语料进行预处理,将预处理后的语料输入预设的学习模型,调整学习模型的参数并保存,根据学习模型输出的序列分类结果为语料分别添加对应的预测标签,对于未知语料,进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注,将初次标注的未知语料进行调优,对调优后的语料进行最终标注;本发明使用户可以根据需求对词库进行调整,具有人机交互调整的功能,实现同一领域自动标注,不同领域半自动标注过程,提升效率,降低成本。
Description
技术领域
本发明涉及信息技术领域,具体的说是基于Bi-LSTM和CRF的文本序列标注系统及方法。
背景技术
随着互联网、移动互联网以及大数据技术的发展,各种文本数据资源的规模呈现爆炸式增长,主要包括社交媒体(例如微博号、公众号、Facebook、Twitter等)和新闻媒体(例如人民日报、凤凰新闻、搜狐新闻等)网站上的非结构化数据,以及百度百科和维基百科等百科网站上的半结构化数据,自然语言处理(Natural Language Processing,NLP)在文本信息提取过程中扮演非常重要的角色。文本挖掘过程中,如何在海量文本数据中提取出有用信息,对企业或者用户都是很有价值的。序列标注是一种最基础也是最常用的NLP方法。如何快速有效的预知中文序列中每个词语对应的标签(比如,名词,人名,地名,时间等),对于关系挖掘,知识图谱等重要人工智能任务具有重要作用。
目前的中文序列标注在应用中主要存在如下四个问题:第一,中文分词效果不太好,比如人名“王保全”,如果事先没有人名库或者特殊处理(正则化或者其他语法处理),人名就会被分词成“王”和“保全”。这样由于分词都没分出来,后续的标注肯定会出错。第二,当前大多数中文序列标注方法都采取隐马尔科夫模型(Hidden Markov Model,HMM)或者条件随机场(Conditional Random Field,CRF)等传统方法,虽然加上合适的词库取得的效果也还可以,但是HMM对序列整体的描述功能较弱,CRF过分依赖于特征的选择。第三,新兴的主流的深度学习方在NLP领域取得了很大的突破,尤其是循环神经网络(Recurrent NeuralNetwork,RNN)在NLP领域取得了优良表现。在英文序列标注方面已经有很多关于RNN用于NLP的成功案例,而在中文序列标注方面的案例却不太多。第四,针对不同的业务,当涉及到不同领域时,需要重新人工标注一份语料进行模型训练,由于模型对于训练语料的要求特别高,需要大量的准确标注的语料数据,这样会花费大量的人力物力。
基于此,针对上述现状中存在的问题,本发明提出了一种有效而且半自动的基于Bi-LSTM和CRF的文本序列标注系统及方法。
发明内容
为了解决上述现有技术的问题,本发明提供一种有效而且半自动的基于Bi-LSTM和CRF的文本序列标注系统及方法。
本发明解决其技术问题所采用的技术方案是:
基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;
所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;
其中,所述学习模型包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;
所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;
所述语料标注模块,用于对分词模块分发的语料进行标注;
所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。
进一步地,所述Bi-LSTM模型和CRF模型具体用于:
将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。
进一步地,所述分词模块利用分词算法进行分词。
更进一步地,所述分词模块利用的分词算法为结巴分词。
进一步地,所述语料标注模块具体用于:判断分词模块分发的语料的标签是否与语料标注模块所对应的标注结果相匹配;
当判断为是时,对分词模块分发的语料进行标注;
当判断为否时,通过调优模块将分错的语料添加到分词模块中进行调优。
更进一步地,所述语料标注模块还具体用于:将标注的语料添加到分词模块中以及通过调优模块对语料进行正则化处理。
基于Bi-LSTM和CRF的文本序列标注方法,包括以下步骤:
步骤1、将获取的语料进行预处理;
步骤2、将步骤1中预处理后的语料输入预设的学习模型,调整学习模型的参数并保存;
步骤3、根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,对于未知语料,利用分词算法进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注;
步骤4、将步骤3中初次标注的未知语料进行调优,对调优后的语料进行最终标注。
进一步地,所述步骤1中的预处理包括合并大粒度分词和统一格式。
进一步地,所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。
进一步地,所述步骤4中的调优具体为:
a、对于分词没有结果的语料,在分词算法中加入词库强制分词;
b、对于训练语料中没有出现的语料,通过加入词库或者正则化处理方法进行调优。
与现有技术相比,本发明的有益效果是:
本发明使用户可以根据自己的需求对相应的词库进行调整,具有人机交互调整的功能,实现了同一领域自动标注,不同领域半自动标注过程,大大提升了中文自然语言处理在序列标注领域的效率,降低了人力标注成本,同时也可以将此系统及方法用于多个行业的文本信息提取。
附图说明
图1为本发明的系统流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明所述的基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块1和标注模块2,所述学习模块1,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;
所述标注模块2包括分词模块201、语料标注模块203和调优模块202,所述语料标注模块203包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果,所述词性标注模块包括名词、形容词、动词、地点、标点、连词、副词、介词等的标注,所述实体识别模块包括人名、地名、机构名、时间等的标注;
其中,所述学习模型1包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;
所述分词模块201,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;
所述语料标注模块203,用于对分词模块分发的语料进行标注;
所述调优模块202,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。
在上述技术方案中,基于Bi-LSTM模型、CRF模型以及词库积累的中文序列标注系统。长短记忆神经网络(LSTM)是一种常见的RNN模型,具有优良的模型训练效果和对序列的长远记忆功能,因为LSTM有门机制,可以记忆或者遗忘前面内容。而Bi-LSTM能够充分利用上下文信息,不仅能利用序列前面的信息来预测可能出现的词语,同时也利用序列后面的信息对前面可能出现的词语进行预测。序列的输出层采用CRF的Viterbi解码预测序列对应的标签,利用联合概率来进一步优化序列的整体效果。将Bi-LSTM模型和CRF模型的Viterbi推导算法结合在一起训练中文序列标注模型,既考虑了词语标签的局部预测(Bi-LSTM),又将整个序列的全局因素(CRF)连接在一起。通过多次训练测试得到合适的参数,用于后续自动标注系统。
具体实施时,所述Bi-LSTM模型和CRF模型具体用于:
将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。
具体实施时,所述分词模块201利用分词算法进行分词。
具体实施时,所述分词模块201利用的分词算法为结巴分词。
具体实施时,所述语料标注模块203具体用于:判断分词模块201分发的语料的标签是否与语料标注模块所对应的标注结果相匹配;
当判断为是时,对分词模块201分发的语料进行标注;
当判断为否时,通过调优模块202将分错的语料添加到分词模块201中进行调优。
具体实施时,所述语料标注模块203还具体用于:将标注的语料添加到分词模块201中以及通过调优模块202对语料进行正则化处理,例如,“2017年”和“6月8日”分别被识别为两个时间词,但是需要将这两个时间词合并成一个时间词。
基于Bi-LSTM和CRF的文本序列标注方法,包括以下步骤:
步骤1、将获取的语料进行预处理;
步骤2、将步骤1中预处理后的语料输入预设的学习模型,调整学习模型的参数并保存;
步骤3、根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,对于未知语料,利用分词算法进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注;
步骤4、将步骤3中初次标注的未知语料进行调优,对调优后的语料进行最终标注。
具体实施时,所述步骤1中的预处理包括合并大粒度分词和统一格式,大粒度分词表意能力更强,统一格式包括将全角字符转变成半角字符。
具体实施时,所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。
具体实施时,所述步骤4中的调优具体为:
a、对于分词没有结果的语料,在分词算法中加入词库强制分词;
b、对于训练语料中没有出现的语料,通过加入词库或者正则化处理方法进行调优。
本系统在用2014年人民日报的标注语料进行模型训练时,训练集占70%,验证集占20%,测试集(封闭性测试)占10%。训练语料中包括199490个中文词语和102个词性标签。训练模型含有两层Bi-LSTM层,每一层128个隐含节点,学习率0.1,最大迭代次数为6次。最终在验证集中平均准确率为99.1%,测试集中平均准确率为97.3%,实验结果证明此模型在序列标注中效果很好。
通过以上实施方式,系统按行业积累各行业词库,比如新闻行业,有一些特殊的新闻用语,可以应对各行业项目需求,通过对人工标注语料的多次训练和调优,以及对开放性语料的不停测试,实验结果表明效果不错,证明了此中文标注系统的有效性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,
所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;
所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;
其中,所述学习模型包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;
所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;
所述语料标注模块,用于对分词模块分发的语料进行标注;
所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。
2.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述Bi-LSTM模型和CRF模型具体用于:
将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。
3.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用分词算法进行分词。
4.根据权利要求3所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用的分词算法为结巴分词。
5.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述语料标注模块具体用于:判断分词模块分发的语料的标签是否与语料标注模块所对应的标注结果相匹配;
当判断为是时,对分词模块分发的语料进行标注;
当判断为否时,通过调优模块将分错的语料添加到分词模块中进行调优。
6.根据权利要求1或5所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述语料标注模块还具体用于:
将标注的语料添加到分词模块中以及通过调优模块对语料进行正则化处理。
7.基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,包括以下步骤:
步骤1、将获取的语料进行预处理;
步骤2、将步骤1中预处理后的语料输入预设的学习模型,调整学习模型的参数并保存;
步骤3、根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,对于未知语料,利用分词算法进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注;
步骤4、将步骤3中初次标注的未知语料进行调优,对调优后的语料进行最终标注。
8.根据权利要求7所述的基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,所述步骤1中的预处理包括合并大粒度分词和统一格式。
9.根据权利要求7所述的基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。
10.根据权利要求7所述的基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,所述步骤4中的调优具体为:
a、对于分词没有结果的语料,在分词算法中加入词库强制分词;
b、对于训练语料中没有出现的语料,通过加入词库或者正则化处理方法进行调优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828497.XA CN107622050B (zh) | 2017-09-14 | 2017-09-14 | 基于Bi-LSTM和CRF的文本序列标注系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828497.XA CN107622050B (zh) | 2017-09-14 | 2017-09-14 | 基于Bi-LSTM和CRF的文本序列标注系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622050A true CN107622050A (zh) | 2018-01-23 |
CN107622050B CN107622050B (zh) | 2021-02-26 |
Family
ID=61088333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710828497.XA Active CN107622050B (zh) | 2017-09-14 | 2017-09-14 | 基于Bi-LSTM和CRF的文本序列标注系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622050B (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763212A (zh) * | 2018-05-23 | 2018-11-06 | 北京神州泰岳软件股份有限公司 | 一种地址信息提取方法及装置 |
CN108768824A (zh) * | 2018-05-15 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 信息处理方法及装置 |
CN108830848A (zh) * | 2018-05-25 | 2018-11-16 | 深圳科亚医疗科技有限公司 | 利用计算机确定血管上的血管状况参数的序列的装置和系统 |
CN108875000A (zh) * | 2018-06-14 | 2018-11-23 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN108959251A (zh) * | 2018-06-27 | 2018-12-07 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN108959242A (zh) * | 2018-05-08 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN109002436A (zh) * | 2018-07-12 | 2018-12-14 | 上海金仕达卫宁软件科技有限公司 | 基于长短期记忆网络的医疗文本术语自动识别方法及系统 |
CN109145286A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 |
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109284361A (zh) * | 2018-09-29 | 2019-01-29 | 深圳追科技有限公司 | 一种基于深度学习的实体抽取方法及系统 |
CN109388749A (zh) * | 2018-09-29 | 2019-02-26 | 武汉烽火普天信息技术有限公司 | 基于多层级地理的精准高效网络舆情检测及预警方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109446300A (zh) * | 2018-09-06 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109508382A (zh) * | 2018-10-19 | 2019-03-22 | 北京明略软件系统有限公司 | 一种标签标注方法和装置、计算机可读存储介质 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109558569A (zh) * | 2018-12-14 | 2019-04-02 | 昆明理工大学 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
CN109710741A (zh) * | 2018-12-27 | 2019-05-03 | 中山大学 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
CN110008473A (zh) * | 2019-04-01 | 2019-07-12 | 云知声(上海)智能科技有限公司 | 一种基于迭代方法的医疗文本命名实体识别标注方法 |
CN110188360A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110287482A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
CN110347921A (zh) * | 2019-07-04 | 2019-10-18 | 有光创新(北京)信息技术有限公司 | 一种多模态数据信息的标签抽取方法及装置 |
CN110413786A (zh) * | 2019-07-26 | 2019-11-05 | 北京智游网安科技有限公司 | 基于网页文本分类的数据处理方法、智能终端及存储介质 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110633476A (zh) * | 2019-09-27 | 2019-12-31 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
WO2020000848A1 (zh) * | 2018-06-28 | 2020-01-02 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110737758A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110750987A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置及存储介质 |
CN110837735A (zh) * | 2019-11-17 | 2020-02-25 | 太原蓝知科技有限公司 | 一种数据智能分析识别方法及系统 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN111144099A (zh) * | 2019-12-31 | 2020-05-12 | 厦门快商通科技股份有限公司 | 一种基于词性的实体标注的质检方法和装置以及设备 |
CN111444686A (zh) * | 2020-03-16 | 2020-07-24 | 上海联影智能医疗科技有限公司 | 医学数据标注方法、装置、存储介质及计算机设备 |
CN111523308A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 中文分词的方法、装置及计算机设备 |
CN111611355A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种对话回复方法、装置、服务器及存储介质 |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN112435447A (zh) * | 2021-01-27 | 2021-03-02 | 南京满星数据科技有限公司 | 一种基于深度学习的气象灾害预警方案生成方法 |
CN113836912A (zh) * | 2021-09-08 | 2021-12-24 | 上海蜜度信息技术有限公司 | 语言模型和词库校正的序列标注分词方法、系统及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055183A1 (en) * | 2007-08-24 | 2009-02-26 | Siemens Medical Solutions Usa, Inc. | System and Method for Text Tagging and Segmentation Using a Generative/Discriminative Hybrid Hidden Markov Model |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106776570A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称标注方法 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
-
2017
- 2017-09-14 CN CN201710828497.XA patent/CN107622050B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055183A1 (en) * | 2007-08-24 | 2009-02-26 | Siemens Medical Solutions Usa, Inc. | System and Method for Text Tagging and Segmentation Using a Generative/Discriminative Hybrid Hidden Markov Model |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106776570A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称标注方法 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
Cited By (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959242A (zh) * | 2018-05-08 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN108768824A (zh) * | 2018-05-15 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 信息处理方法及装置 |
CN108763212A (zh) * | 2018-05-23 | 2018-11-06 | 北京神州泰岳软件股份有限公司 | 一种地址信息提取方法及装置 |
CN108830848B (zh) * | 2018-05-25 | 2022-07-05 | 深圳科亚医疗科技有限公司 | 利用计算机确定血管上的血管状况参数的序列的装置和系统 |
CN108830848A (zh) * | 2018-05-25 | 2018-11-16 | 深圳科亚医疗科技有限公司 | 利用计算机确定血管上的血管状况参数的序列的装置和系统 |
CN108875000A (zh) * | 2018-06-14 | 2018-11-23 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
CN108959251A (zh) * | 2018-06-27 | 2018-12-07 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
WO2020000848A1 (zh) * | 2018-06-28 | 2020-01-02 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN108959252B (zh) * | 2018-06-28 | 2022-02-08 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109145286A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 |
US11501182B2 (en) | 2018-07-03 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating model |
CN110737758B (zh) * | 2018-07-03 | 2022-07-05 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110737758A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN109002436A (zh) * | 2018-07-12 | 2018-12-14 | 上海金仕达卫宁软件科技有限公司 | 基于长短期记忆网络的医疗文本术语自动识别方法及系统 |
CN109446300A (zh) * | 2018-09-06 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109446300B (zh) * | 2018-09-06 | 2021-04-20 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109271631B (zh) * | 2018-09-12 | 2023-01-24 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
WO2020063148A1 (zh) * | 2018-09-29 | 2020-04-02 | 深圳追一科技有限公司 | 一种基于深度学习的实体抽取方法、计算机设备和存储介质 |
CN109284361A (zh) * | 2018-09-29 | 2019-01-29 | 深圳追科技有限公司 | 一种基于深度学习的实体抽取方法及系统 |
CN109388749A (zh) * | 2018-09-29 | 2019-02-26 | 武汉烽火普天信息技术有限公司 | 基于多层级地理的精准高效网络舆情检测及预警方法 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109508382A (zh) * | 2018-10-19 | 2019-03-22 | 北京明略软件系统有限公司 | 一种标签标注方法和装置、计算机可读存储介质 |
CN109388806B (zh) * | 2018-10-26 | 2023-06-27 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN111104798B (zh) * | 2018-10-27 | 2023-04-21 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109543153B (zh) * | 2018-11-13 | 2023-08-18 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109522558B (zh) * | 2018-11-21 | 2024-01-12 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109558569A (zh) * | 2018-12-14 | 2019-04-02 | 昆明理工大学 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
CN109710741A (zh) * | 2018-12-27 | 2019-05-03 | 中山大学 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
CN111611355A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种对话回复方法、装置、服务器及存储介质 |
CN110008473A (zh) * | 2019-04-01 | 2019-07-12 | 云知声(上海)智能科技有限公司 | 一种基于迭代方法的医疗文本命名实体识别标注方法 |
CN110008473B (zh) * | 2019-04-01 | 2022-11-25 | 云知声(上海)智能科技有限公司 | 一种基于迭代方法的医疗文本命名实体识别标注方法 |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110287482A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
CN110287482B (zh) * | 2019-05-29 | 2022-07-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
CN110188360B (zh) * | 2019-06-06 | 2023-04-25 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110188360A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110347921A (zh) * | 2019-07-04 | 2019-10-18 | 有光创新(北京)信息技术有限公司 | 一种多模态数据信息的标签抽取方法及装置 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110413786A (zh) * | 2019-07-26 | 2019-11-05 | 北京智游网安科技有限公司 | 基于网页文本分类的数据处理方法、智能终端及存储介质 |
CN110413786B (zh) * | 2019-07-26 | 2021-12-28 | 北京智游网安科技有限公司 | 基于网页文本分类的数据处理方法、智能终端及存储介质 |
CN110633476A (zh) * | 2019-09-27 | 2019-12-31 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN110633476B (zh) * | 2019-09-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN110750987A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置及存储介质 |
CN110837735B (zh) * | 2019-11-17 | 2023-11-03 | 内蒙古中媒互动科技有限公司 | 一种数据智能分析识别方法及系统 |
CN110837735A (zh) * | 2019-11-17 | 2020-02-25 | 太原蓝知科技有限公司 | 一种数据智能分析识别方法及系统 |
CN111144099A (zh) * | 2019-12-31 | 2020-05-12 | 厦门快商通科技股份有限公司 | 一种基于词性的实体标注的质检方法和装置以及设备 |
CN111444686A (zh) * | 2020-03-16 | 2020-07-24 | 上海联影智能医疗科技有限公司 | 医学数据标注方法、装置、存储介质及计算机设备 |
CN111444686B (zh) * | 2020-03-16 | 2023-07-25 | 武汉中科医疗科技工业技术研究院有限公司 | 医学数据标注方法、装置、存储介质及计算机设备 |
CN111523308A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 中文分词的方法、装置及计算机设备 |
CN111523308B (zh) * | 2020-03-18 | 2024-01-26 | 大箴(杭州)科技有限公司 | 中文分词的方法、装置及计算机设备 |
CN112435447A (zh) * | 2021-01-27 | 2021-03-02 | 南京满星数据科技有限公司 | 一种基于深度学习的气象灾害预警方案生成方法 |
CN113836912A (zh) * | 2021-09-08 | 2021-12-24 | 上海蜜度信息技术有限公司 | 语言模型和词库校正的序列标注分词方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107622050B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622050A (zh) | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
CN107705066B (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN111209412A (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN111324742A (zh) | 一种数字人文知识图谱的构建方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN112183056A (zh) | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN110888983A (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN111026880A (zh) | 基于联合学习的司法知识图谱构建方法 | |
Xie et al. | The named entity recognition of Chinese cybersecurity using an active learning strategy | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
Jiang et al. | Sentiment analysis for troll detection on Weibo | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
Marulli et al. | A comparison of character and word embeddings in bidirectional LSTMs for POS tagging in Italian | |
Curtotti et al. | Corpus based classification of text in Australian contracts | |
CN113887230B (zh) | 一种面向金融场景的端到端自然语言处理训练系统与方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |