CN111046670A - 基于毒品案件法律文书的实体及关系联合抽取方法 - Google Patents
基于毒品案件法律文书的实体及关系联合抽取方法 Download PDFInfo
- Publication number
- CN111046670A CN111046670A CN201911247446.3A CN201911247446A CN111046670A CN 111046670 A CN111046670 A CN 111046670A CN 201911247446 A CN201911247446 A CN 201911247446A CN 111046670 A CN111046670 A CN 111046670A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- drug case
- drug
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 129
- 229940079593 drug Drugs 0.000 title claims abstract description 129
- 238000000605 extraction Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000004806 packaging method and process Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 51
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012821 model calculation Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 241000700605 Viruses Species 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Technology Law (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种实体及关系的联合抽取方法,一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:(1)建立数据集,(2)搭建联合抽取模型,(3)训练联合抽取模型,(4)测试联合抽取模型,(5)结果讨论,(6)封装联合抽取模型。本发明方法使用单个模型将实体与关系一起提取,可以有效地整合实体和关系的信息,并且避免了流水线方法存在的错误积累等问题,利用神经网络模型,减少了特征提取中的人工参与,利用注意力机制,关注了每个词对抽取结果的贡献,提高了抽取结果的准确性。
Description
技术领域
本发明涉及一种实体及关系的联合抽取方法,更具体地说,涉及一种基于毒品案件法律文书的实体及关系联合抽取方法。
背景技术
现有的进行信息抽取的方法一般是采用流水线方法,即输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组作为输出,但流水线方法还存在以下缺点:
(1)错误积累,流水线方式的前后两步是密切相关的,如果第一步的命名实体识别产生了一定的错误,在关系分类时,这种错误的命名实体会被继续利用而导致错误进一步被积累、放大;
(2)产生了过多的无用信息,因为第一步被识别出的命名实体都要被两两组合再进行关系分类,而在这些实体组合中,更多的是两实体之间没有关系或者两实体之间的关系并没有被预测正确,这就会带来很多的错误信息。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于毒品案件法律文书的实体及关系联合抽取方法。与流水线方法不同,该联合抽取方法使用单个模型将实体与关系一起提取,可以有效地整合实体和关系的信息,并且避免了流水线方法存在的错误积累等问题,取得良好的抽取效果。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:
步骤1、建立数据集,将获取的毒品案件数据进行标注处理,确定模型进行一次训练需要的毒品案件数据的数量,每次训练都随机挑选相应毒品案件数据作为模型的输入,具体包括以下子步骤:
(a)、获取毒品案件数据,在已有的毒品案件数据中获得包含非法持有毒品、贩卖毒品和容留他人吸食毒品的刑事判决书,分析刑事判决书文法结构,抽取出刑事判决书中的案情描述作为数据集,获得有效毒品案件数据2098份;然后,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(b)、进行标注,根据任务的特点即需要同时标出毒品案件的实体及关系编写一个标注格式软件进行标注,该标注格式软件包含实体标签和关系标签,标注者在一次标注中,同时标出两个实体以及两个实体之间的关系,标注后的实体和关系信息存储在相应的xml文件中;
(c)、标注后进行处理,存储在xml文件中的已有实体标签仅包含实体信息,不包含关系信息,经过处理就是将关系信息融合到实体标签中,在每一个实体标签中加入位置信息与关系信息,处理成为新的标签,再将所有新的标签存储;
(d)、存储司法文本词汇表,为了将司法文本进行序列化,利用大语料库建立一个司法文本词汇表,再将训练集中的所有字词在司法文本词汇表中进行映射,每个词获得一个ID;
(e)、产生批量数据,运用神经网络进行模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量毒品案件数据送入模型,为了减小局部毒品案件数据的其他因素影响,编写函数随机选择了相应数量的毒品案件数据作为模型的输入;
步骤2、搭建联合抽取模型,根据司法文本本身的特点并结合自然语言处理领域的经典框架,搭建合适的联合抽取模型结构,具体包括以下子步骤:
(a)、在词嵌入阶段,首先进行分词,再使用word2vec方法中的skip-ngram模型训练256维的词向量,同时,对词中的每一个字随机产生一个256维的向量作为字向量,然后对该字序列利用三层卷积神经网络进行训练获得50维的隐层状态输出,将输出的50维向量与原来的词向量拼接而成的新向量作为该词的词向量;
(b)、模型的框架是编解码器框架,编码器对输入毒品案件数据进行编码处理,将输入句子通过神经网络的变换转变为中间语义向量,解码器会根据中间语义向量和历史信息来生成对应时刻要生成的单词;
(c)、编码阶段,模型使用的是卷积神经网络进行计算,n核的卷积神经网络相当于n元语言模型,且卷积核层次越高,关注到的相邻语义信息越充分;解码阶段,由于毒品案件数据集小,使用门循环神经网络进行计算,通过公式(l)至公式(5)进行描述,
rt=σ(Wr·[ht-1,xt]) (1)
式中,rt表示重置门,重置门控制前一状态有多少信息被写入到当前的候选集,σ表示sigmoid函数,xt表示t时刻的输入毒品案件数据,ht-1表示t-1时刻对应的神经网络的隐藏层输出,Wr表示重置门参数,由模型训练得到,
zt=σ(Wz·[ht-1,xt]) (2)
式中,zt表示更新门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,Wz表示更新门参数,由模型训练得到,
式中,ht表示t时刻对应的神经网络的隐藏层的最后状态,
yt=σ(Wo·ht) (5)
式中,yt表示t时刻对应的神经网络的最后输出,Wo表示输出门参数,由模型训练得到;
(d)、在编解码器框架中,对于每一个生成的词,输入句子中的每个词的贡献相同,因此模型在输出阶段利用注意力机制,为每一个不同的输入词计算出不同的权重,以此表示出该词对结果的影响程度,注意力模块的计算通过公式(6)至公式(9)进行描述,
a(s,h)=sTh (6)
式中,a函数表示计算内积,
et′t=a(st′-1,ht) (7)
式中,ht表示编码器t时刻神经网络的隐藏层输出,st′-1表示解码器t′-1时刻的隐藏层输出,et′t表示两个隐藏层输出的相似度,
式中,αt′t是对et′t的归一化,作为每个输入对输出的贡献,
式中,ct′表示解码器t′时刻的最后输出;
步骤3、训练联合抽取模型,采用经过处理的训练毒品案件数据训练模型,在训练过程中根据训练误差调整训练次数、学习率、优化函数和网络结构超参数,具体包括以下子步骤:
(a)、以步骤1中划分出的训练集作为模型训练的毒品案件数据集,输入到神经网络模型中,开启模型训练,迭代计算获得模型参数;
(b)、在训练集中划分出一部分数据作验证集,将毒品案件数据输入到模型,计算模型的准确率、召回率和F值;
(c)、根据模型的测试结果,调整训练次数、学习率和网络结构超参数以获得模型表现最佳时的参数组合,记录参数,保存模型;
步骤4、测试联合抽取模型,利用测试毒品案件数据进行毒品案件实体和关系的联合抽取,观察模型在测试集毒品案件数据上的表现,确定模型的泛化能力,具体包括以下子步骤:
(a)、以步骤1中随机选择的测试集作为模型的测试毒品案件数据,按照相同的预训练的词向量进行毒品案件文本预处理,再将该文本语言数据序列化为模型可以计算的文本的向量表示;
(b)、将步骤4子步骤(a)获取的毒品案件文本的向量表示作为模型的输入,经模型计算后,得到毒品案件的实体以及关系;
(c)、比较上述输出值与真实值之间的差异,使用全部测试毒品案件数据计算模型的准确率、召回率以及F值,通过这几个评价指标,检验出该模型的泛化能力;
步骤5、结果讨论,得到步骤4中的评价指标之后,进行结果讨论,定位到模型预测发生错误的语料,进行错误分析,并结合分析结果,确定未来的改进方向,具体包括以下子步骤:
(a)、编写函数获取模型当前处理的毒品案件中被标出的实体与关系,与模型的输出结果进行对比,如果错误率超过预定阈值,则返回步骤3,调节参数或改变模型结构,重新进行训练;
(b)、如果错误率在阈值之内,则代表模型在整体的毒品案件数据中取得了良好的效果,因此,需要对每一个错误的毒品案件数据进行分析,分析错误语料的特殊性以及规律性,利用大规模语料中的自定义词典或者编写规则进行处理,以完成对这些特殊毒品案件的实体和关系的抽取;
(c)、完成步骤5子步骤(b)之后,模型便具备了解决涉毒类案件的实体和关系的联合抽取能力,同时,为了使得模型能够随着后续自然语言处理技术的不断更新而更新,便于进行模型重构。
步骤6、封装联合抽取模型,利用实验中的词向量、词汇表以及预处理程序,对训练好的模型可直接提取其他涉毒类案件语料中的实体和关系,若原始毒品案件数据不在训练集与测试集中,模型也会将原始毒品案件处理成为与训练集一样的毒品案件数据形式,具体包括以下子步骤:
(a)、模型在进行计算时,处理的是与训练毒品案件数据相同格式的词向量,因此在面对其他的涉毒类案件文本输入时,会先利用预处理程序根据词向量和词汇表将输入映射到向量空间,预处理工作完成后,输入毒品案件数据便成为可以用于模型计算的信息;
(b)、然后将步骤6子步骤(a)的向量信息作为模型输入,模型内部通过神经网络计算得到该毒品案件中概率最大的实体和关系,将该实体和关系以三元组实体1,关系,实体2的形式输出;
(c)、得到步骤6子步骤(b)三元组输出后,便可根据其格式进行相应处理,根据面向的对象不同而以不同的方式进行处理,或者是存在法院的内网数据库中或者是以填写案卡的方式将毒品案件数据保存在格式化的文本中。
本发明有益效果是:一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:(1)建立数据集,(2)搭建联合抽取模型,(3)训练联合抽取模型,(4)测试联合抽取模型,(5)结果讨论,(6)封装联合抽取模型。与已有技术相比,本发明方法使用单个模型将实体与关系一起提取,可以有效地整合实体和关系的信息,并且避免了流水线方法存在的错误积累等问题,利用神经网络模型,减少了特征提取中的人工参与,利用注意力机制,关注了每个词对抽取结果的贡献,提高了抽取结果的准确性。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的神经网络模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:
步骤1、建立数据集,将获取的毒品案件数据进行标注处理,确定模型进行一次训练需要的毒品案件数据的数量,每次训练都随机挑选相应毒品案件数据作为模型的输入,具体包括以下子步骤:
(a)、获取毒品案件数据,在已有的毒品案件数据中获得包含非法持有毒品、贩卖毒品和容留他人吸食毒品的刑事判决书,分析刑事判决书文法结构,抽取出刑事判决书中的案情描述作为数据集,获得有效毒品案件数据2098份;然后,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(b)、进行标注,根据任务的特点即需要同时标出毒品案件的实体及关系编写一个标注格式软件进行标注,该标注格式软件包含实体标签和关系标签,标注者在一次标注中,同时标出两个实体以及两个实体之间的关系,标注后的实体和关系信息存储在相应的xml文件中;
(c)、标注后进行处理,存储在xml文件中的已有实体标签仅包含实体信息,不包含关系信息,经过处理就是将关系信息融合到实体标签中,在每一个实体标签中加入位置信息与关系信息,处理成为新的标签,再将所有新的标签存储;
(d)、存储司法文本词汇表,为了将司法文本进行序列化,利用大语料库建立一个司法文本词汇表,再将训练集中的所有字词在司法文本词汇表中进行映射,每个词获得一个ID;
(e)、产生批量数据,运用神经网络进行模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量毒品案件数据送入模型,为了减小局部毒品案件数据的其他因素影响,编写函数随机选择了相应数量的毒品案件数据作为模型的输入;
步骤2、搭建联合抽取模型,根据司法文本本身的特点并结合自然语言处理领域的经典框架,搭建合适的联合抽取模型结构,具体包括以下子步骤:
(a)、在词嵌入阶段,首先进行分词,再使用word2vec方法中的skip-ngram模型训练256维的词向量,同时,对词中的每一个字随机产生一个256维的向量作为字向量,然后对该字序列利用三层卷积神经网络进行训练获得50维的隐层状态输出,将输出的50维向量与原来的词向量拼接而成的新向量作为该词的词向量;
(b)、模型的框架是编解码器框架,编码器对输入毒品案件数据进行编码处理,将输入句子通过神经网络的变换转变为中间语义向量,解码器会根据中间语义向量和历史信息来生成对应时刻要生成的单词;
(c)、编码阶段,模型使用的是卷积神经网络进行计算,n核的卷积神经网络相当于n元语言模型,且卷积核层次越高,关注到的相邻语义信息越充分;解码阶段,由于毒品案件数据集小,使用门循环神经网络进行计算,通过公式(l)至公式(5)进行描述,
rt=σ(Wr·[ht-1,xt]) (1)
式中,rt表示重置门,重置门控制前一状态有多少信息被写入到当前的候选集,σ表示sigmoid函数,xt表示t时刻的输入毒品案件数据,ht-1表示t-1时刻对应的神经网络的隐藏层输出,Wr表示重置门参数,由模型训练得到,
zt=σ(Wz·[ht-1,xt]) (2)
式中,zt表示更新门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,Wz表示更新门参数,由模型训练得到,
式中,ht表示t时刻对应的神经网络的隐藏层的最后状态,
yt=σ(Wo·ht) (5)
式中,yt表示t时刻对应的神经网络的最后输出,Wo表示输出门参数,由模型训练得到;
(d)、在编解码器框架中,对于每一个生成的词,输入句子中的每个词的贡献相同,因此模型在输出阶段利用注意力机制,为每一个不同的输入词计算出不同的权重,以此表示出该词对结果的影响程度,注意力模块的计算通过公式(6)至公式(9)进行描述,
a(s,h)=sTh (6)
式中,a函数表示计算内积,
et′t=a(st′-1,ht) (7)
式中,ht表示编码器t时刻神经网络的隐藏层输出,st′-1表示解码器t′-1时刻的隐藏层输出,et′t表示两个隐藏层输出的相似度,
式中,αt′t是对et′t的归一化,作为每个输入对输出的贡献,
式中,ct′表示解码器t′时刻的最后输出;
步骤3、训练联合抽取模型,采用经过处理的训练毒品案件数据训练模型,在训练过程中根据训练误差调整训练次数、学习率、优化函数和网络结构超参数,具体包括以下子步骤:
(a)、以步骤1中划分出的训练集作为模型训练的毒品案件数据集,输入到神经网络模型中,开启模型训练,迭代计算获得模型参数;
(b)、在训练集中划分出一部分数据作验证集,将毒品案件数据输入到模型,计算模型的准确率、召回率和F值;
(c)、根据模型的测试结果,调整训练次数、学习率和网络结构超参数以获得模型表现最佳时的参数组合,记录参数,保存模型;
步骤4、测试联合抽取模型,利用测试毒品案件数据进行毒品案件实体和关系的联合抽取,观察模型在测试集毒品案件数据上的表现,确定模型的泛化能力,具体包括以下子步骤:
(a)、以步骤1中随机选择的测试集作为模型的测试毒品案件数据,按照相同的预训练的词向量进行毒品案件文本预处理,再将该文本语言数据序列化为模型可以计算的文本的向量表示;
(b)、将步骤4子步骤(a)获取的毒品案件文本的向量表示作为模型的输入,经模型计算后,得到毒品案件的实体以及关系;
(c)、比较上述输出值与真实值之间的差异,使用全部测试毒品案件数据计算模型的准确率、召回率以及F值,通过这几个评价指标,检验出该模型的泛化能力;
步骤5、结果讨论,得到步骤4中的评价指标之后,进行结果讨论,定位到模型预测发生错误的语料,进行错误分析,并结合分析结果,确定未来的改进方向,具体包括以下子步骤:
(a)、编写函数获取模型当前处理的毒品案件中被标出的实体与关系,与模型的输出结果进行对比,如果错误率超过预定阈值,则返回步骤3,调节参数或改变模型结构,重新进行训练;
(b)、如果错误率在阈值之内,则代表模型在整体的毒品案件数据中取得了良好的效果,因此,需要对每一个错误的毒品案件数据进行分析,分析错误语料的特殊性以及规律性,利用大规模语料中的自定义词典或者编写规则进行处理,以完成对这些特殊毒品案件的实体和关系的抽取;
(c)、完成步骤5子步骤(b)之后,模型便具备了解决涉毒类案件的实体和关系的联合抽取能力,同时,为了使得模型能够随着后续自然语言处理技术的不断更新而更新,便于进行模型重构。
步骤6、封装联合抽取模型,利用实验中的词向量、词汇表以及预处理程序,对训练好的模型可直接提取其他涉毒类案件语料中的实体和关系,若原始毒品案件数据不在训练集与测试集中,模型也会将原始毒品案件处理成为与训练集一样的毒品案件数据形式,具体包括以下子步骤:
(a)、模型在进行计算时,处理的是与训练毒品案件数据相同格式的词向量,因此在面对其他的涉毒类案件文本输入时,会先利用预处理程序根据词向量和词汇表将输入映射到向量空间,预处理工作完成后,输入毒品案件数据便成为可以用于模型计算的信息;
(b)、然后将步骤6子步骤(a)的向量信息作为模型输入,模型内部通过神经网络计算得到该毒品案件中概率最大的实体和关系,将该实体和关系以三元组实体1,关系,实体2的形式输出;
(c)、得到步骤6子步骤(b)三元组输出后,便可根据其格式进行相应处理,根据面向的对象不同而以不同的方式进行处理,或者是存在法院的内网数据库中或者是以填写案卡的方式将毒品案件数据保存在格式化的文本中。
Claims (1)
1.一种基于毒品案件法律文书的实体及关系联合抽取方法,其特征在于包括以下步骤:
步骤1、建立数据集,将获取的毒品案件数据进行标注处理,确定模型进行一次训练需要的毒品案件数据的数量,每次训练都随机挑选相应毒品案件数据作为模型的输入,具体包括以下子步骤:
(a)、获取毒品案件数据,在已有的毒品案件数据中获得包含非法持有毒品、贩卖毒品和容留他人吸食毒品的刑事判决书,分析刑事判决书文法结构,抽取出刑事判决书中的案情描述作为数据集,获得有效毒品案件数据2098份;然后,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(b)、进行标注,根据任务的特点即需要同时标出毒品案件的实体及关系编写一个标注格式软件进行标注,该标注格式软件包含实体标签和关系标签,标注者在一次标注中,同时标出两个实体以及两个实体之间的关系,标注后的实体和关系信息存储在相应的xml文件中;
(c)、标注后进行处理,存储在xml文件中的已有实体标签仅包含实体信息,不包含关系信息,经过处理就是将关系信息融合到实体标签中,在每一个实体标签中加入位置信息与关系信息,处理成为新的标签,再将所有新的标签存储;
(d)、存储司法文本词汇表,为了将司法文本进行序列化,利用大语料库建立一个司法文本词汇表,再将训练集中的所有字词在司法文本词汇表中进行映射,每个词获得一个ID;
(e)、产生批量数据,运用神经网络进行模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量毒品案件数据送入模型,为了减小局部毒品案件数据的其他因素影响,编写函数随机选择了相应数量的毒品案件数据作为模型的输入;
步骤2、搭建联合抽取模型,根据司法文本本身的特点并结合自然语言处理领域的经典框架,搭建合适的联合抽取模型结构,具体包括以下子步骤:
(a)、在词嵌入阶段,首先进行分词,再使用word2vec方法中的skip-ngram模型训练256维的词向量,同时,对词中的每一个字随机产生一个256维的向量作为字向量,然后对该字序列利用三层卷积神经网络进行训练获得50维的隐层状态输出,将输出的50维向量与原来的词向量拼接而成的新向量作为该词的词向量;
(b)、模型的框架是编解码器框架,编码器对输入毒品案件数据进行编码处理,将输入句子通过神经网络的变换转变为中间语义向量,解码器会根据中间语义向量和历史信息来生成对应时刻要生成的单词;
(c)、编码阶段,模型使用的是卷积神经网络进行计算,n核的卷积神经网络相当于n元语言模型,且卷积核层次越高,关注到的相邻语义信息越充分;解码阶段,由于毒品案件数据集小,使用门循环神经网络进行计算,通过公式(l)至公式(5)进行描述,
rt=σ(Wr·[ht-1,xt]) (1)
式中,rt表示重置门,重置门控制前一状态有多少信息被写入到当前的候选集,σ表示sigmoid函数,xt表示t时刻的输入毒品案件数据,ht-1表示t-1时刻对应的神经网络的隐藏层输出,Wr表示重置门参数,由模型训练得到,
zt=σ(Wz·[ht-1,xt]) (2)
式中,zt表示更新门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,Wz表示更新门参数,由模型训练得到,
式中,ht表示t时刻对应的神经网络的隐藏层的最后状态,
yt=σ(Wo·ht) (5)
式中,yt表示t时刻对应的神经网络的最后输出,Wo表示输出门参数,由模型训练得到;
(d)、在编解码器框架中,对于每一个生成的词,输入句子中的每个词的贡献相同,因此模型在输出阶段利用注意力机制,为每一个不同的输入词计算出不同的权重,以此表示出该词对结果的影响程度,注意力模块的计算通过公式(6)至公式(9)进行描述,
a(s,h)=sTh (6)
式中,a函数表示计算内积,
et′t=a(st′-1,ht) (7)
式中,ht表示编码器t时刻神经网络的隐藏层输出,st′-1表示解码器t′-1时刻的隐藏层输出,et′t表示两个隐藏层输出的相似度,
式中,αt′t是对et′t的归一化,作为每个输入对输出的贡献,
式中,ct′表示解码器t′时刻的最后输出;
步骤3、训练联合抽取模型,采用经过处理的训练毒品案件数据训练模型,在训练过程中根据训练误差调整训练次数、学习率、优化函数和网络结构超参数,具体包括以下子步骤:
(a)、以步骤1中划分出的训练集作为模型训练的毒品案件数据集,输入到神经网络模型中,开启模型训练,迭代计算获得模型参数;
(b)、在训练集中划分出一部分数据作验证集,将毒品案件数据输入到模型,计算模型的准确率、召回率和F值;
(c)、根据模型的测试结果,调整训练次数、学习率和网络结构超参数以获得模型表现最佳时的参数组合,记录参数,保存模型;
步骤4、测试联合抽取模型,利用测试毒品案件数据进行毒品案件实体和关系的联合抽取,观察模型在测试集毒品案件数据上的表现,确定模型的泛化能力,具体包括以下子步骤:
(a)、以步骤1中随机选择的测试集作为模型的测试毒品案件数据,按照相同的预训练的词向量进行毒品案件文本预处理,再将该文本语言数据序列化为模型可以计算的文本的向量表示;
(b)、将步骤4子步骤(a)获取的毒品案件文本的向量表示作为模型的输入,经模型计算后,得到毒品案件的实体以及关系;
(c)、比较上述输出值与真实值之间的差异,使用全部测试毒品案件数据计算模型的准确率、召回率以及F值,通过这几个评价指标,检验出该模型的泛化能力;
步骤5、结果讨论,得到步骤4中的评价指标之后,进行结果讨论,定位到模型预测发生错误的语料,进行错误分析,并结合分析结果,确定未来的改进方向,具体包括以下子步骤:
(a)、编写函数获取模型当前处理的毒品案件中被标出的实体与关系,与模型的输出结果进行对比,如果错误率超过预定阈值,则返回步骤3,调节参数或改变模型结构,重新进行训练;
(b)、如果错误率在阈值之内,则代表模型在整体的毒品案件数据中取得了良好的效果,因此,需要对每一个错误的毒品案件数据进行分析,分析错误语料的特殊性以及规律性,利用大规模语料中的自定义词典或者编写规则进行处理,以完成对这些特殊毒品案件的实体和关系的抽取;
(c)、完成步骤5子步骤(b)之后,模型便具备了解决涉毒类案件的实体和关系的联合抽取能力,同时,为了使得模型能够随着后续自然语言处理技术的不断更新而更新,便于进行模型重构。
步骤6、封装联合抽取模型,利用实验中的词向量、词汇表以及预处理程序,对训练好的模型可直接提取其他涉毒类案件语料中的实体和关系,若原始毒品案件数据不在训练集与测试集中,模型也会将原始毒品案件处理成为与训练集一样的毒品案件数据形式,具体包括以下子步骤:
(a)、模型在进行计算时,处理的是与训练毒品案件数据相同格式的词向量,因此在面对其他的涉毒类案件文本输入时,会先利用预处理程序根据词向量和词汇表将输入映射到向量空间,预处理工作完成后,输入毒品案件数据便成为可以用于模型计算的信息;
(b)、然后将步骤6子步骤(a)的向量信息作为模型输入,模型内部通过神经网络计算得到该毒品案件中概率最大的实体和关系,将该实体和关系以三元组实体1,关系,实体2的形式输出;
(c)、得到步骤6子步骤(b)三元组输出后,便可根据其格式进行相应处理,根据面向的对象不同而以不同的方式进行处理,或者是存在法院的内网数据库中或者是以填写案卡的方式将毒品案件数据保存在格式化的文本中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911247446.3A CN111046670B (zh) | 2019-12-09 | 2019-12-09 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911247446.3A CN111046670B (zh) | 2019-12-09 | 2019-12-09 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046670A true CN111046670A (zh) | 2020-04-21 |
CN111046670B CN111046670B (zh) | 2023-04-18 |
Family
ID=70233723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911247446.3A Active CN111046670B (zh) | 2019-12-09 | 2019-12-09 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046670B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563117A (zh) * | 2020-07-14 | 2020-08-21 | 北京每日优鲜电子商务有限公司 | 结构化信息显示方法、装置、电子设备和计算机可读介质 |
CN112307726A (zh) * | 2020-11-09 | 2021-02-02 | 浙江大学 | 因果去偏差模型指导的法院观点自动生成方法 |
CN112364650A (zh) * | 2020-09-30 | 2021-02-12 | 深圳市罗湖区人民医院 | 一种实体关系联合抽取方法、终端以及存储介质 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN113553815A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 基于层次注意力指针生成网络的智能报表描述自动生成的方法及装置 |
CN113591471A (zh) * | 2021-08-20 | 2021-11-02 | 上海大参林医疗健康科技有限公司 | 一种基于字和词的语言特征提取装置及方法 |
CN113743118A (zh) * | 2021-07-22 | 2021-12-03 | 武汉工程大学 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
CN116308754A (zh) * | 2023-03-22 | 2023-06-23 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
CN116797053A (zh) * | 2023-08-25 | 2023-09-22 | 深圳普菲特信息科技股份有限公司 | 基于神经网络的化工生产数据分析方法、系统和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189269A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
-
2019
- 2019-12-09 CN CN201911247446.3A patent/CN111046670B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189269A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
曹明宇等: "基于神经网络的药物实体与关系联合抽取" * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553815A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 基于层次注意力指针生成网络的智能报表描述自动生成的方法及装置 |
CN111563117A (zh) * | 2020-07-14 | 2020-08-21 | 北京每日优鲜电子商务有限公司 | 结构化信息显示方法、装置、电子设备和计算机可读介质 |
CN112364650A (zh) * | 2020-09-30 | 2021-02-12 | 深圳市罗湖区人民医院 | 一种实体关系联合抽取方法、终端以及存储介质 |
CN112307726A (zh) * | 2020-11-09 | 2021-02-02 | 浙江大学 | 因果去偏差模型指导的法院观点自动生成方法 |
CN112307726B (zh) * | 2020-11-09 | 2023-08-04 | 浙江大学 | 因果去偏差模型指导的法院观点自动生成方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN113743118A (zh) * | 2021-07-22 | 2021-12-03 | 武汉工程大学 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
CN113591471A (zh) * | 2021-08-20 | 2021-11-02 | 上海大参林医疗健康科技有限公司 | 一种基于字和词的语言特征提取装置及方法 |
CN116308754A (zh) * | 2023-03-22 | 2023-06-23 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
CN116308754B (zh) * | 2023-03-22 | 2024-02-13 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
CN116797053A (zh) * | 2023-08-25 | 2023-09-22 | 深圳普菲特信息科技股份有限公司 | 基于神经网络的化工生产数据分析方法、系统和介质 |
CN116797053B (zh) * | 2023-08-25 | 2023-11-10 | 深圳普菲特信息科技股份有限公司 | 基于神经网络的化工生产数据分析方法、系统和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111046670B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN111813950B (zh) | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN106557462A (zh) | 命名实体识别方法和系统 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN112231472A (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN112100348A (zh) | 一种多粒度注意力机制的知识库问答关系检测方法及系统 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN116127952A (zh) | 一种多粒度中文文本纠错方法和装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN114757183A (zh) | 一种基于对比对齐网络的跨领域情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |