CN110321432A

CN110321432A - 文本事件信息提取方法、电子装置和非易失性存储介质

Info

Publication number: CN110321432A
Application number: CN201910548427.8A
Authority: CN
Inventors: 乔春庚; 江敏; 刘瑞宝
Original assignee: Tols Information Technology Co Ltd
Current assignee: Tols Information Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-11
Anticipated expiration: 2039-06-24
Also published as: CN110321432B

Abstract

本发明属于信息处理技术领域，为了解决现有技术中事件信息提取的技术方案存在准确率不高的技术问题，本发明提供一种本发明第一方面提供一种文本事件信息提取方法，该方法包括：对文本进行分词划分，并将分词做向量转换后得到词向量，以及将词向量输入至神经网路模型，输出实体；基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将文本块中的分词和实体按照文法定义的对应模式规则，整理成结构化后的文本块；对结构化后的文本块进行事件信息提取处理，使用文法定义的对应模式规则实现关键字抽取，并把关键字输出到结果模板中。因此，利用神经网络深度学习与规则相结合的方式，配置事件提取模型，实现文本事件信息的准确提取。

Description

文本事件信息提取方法、电子装置和非易失性存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及文本挖掘研究中事件信息提取技术领域，具体地，涉及一种文本事件信息提取方法、电子装置和非易失性存储介质。

背景技术

事件信息提取是文本挖掘研究中最具挑战性的任务之一,旨在利用计算机从文本中自动地提取特定类型的事件及其要素，事件信息提取作为信息处理领域的关键技术，在信息检索、自动问答、自动摘要、数据挖掘、文本挖掘等领域有着广泛的应用。

事件信息提取目前的研究和实验，概括起来主要有三类：(1)、基于规则的文本事件抽取，应用这类方法的典型系统有：Ex Disco、Gen PAM等。(2)、基于触发词探测的文本事件抽取，其核心是触发词探测和事件要素及其角色的确定，触发词是能够很好地表述出某类事件中心意义的词；例如，职务变动事件中的“任命”、“辞职”等词语。(3)基于概率统计模型的文本信息抽取，例如用隐马尔可夫模型对计算机科研论文头部信息的所有域进行抽取。

虽然将统计模型用于本中信息抽取的研究很多,但这些研究中待抽取的数据域都可以看成一个非常紧凑的序列,而文本中事件的表述往往并不具备这种特征,需要抽取的数据域是分散的、稀疏的,有的待抽取域甚至距离事件表述中心(可以看作是触发词所在的位置)有一定的距离；从而准确率上还有待提高。

发明内容

为了解决现有技术中事件信息提取的技术方案存在准确率不高的技术问题，本发明提供一种文本事件信息提取方法、电子装置和非易失性存储介质，利用神经网络深度学习与规则相结合的方式，配置事件提取模型，实现文本事件信息的准确提取。

为了实现上述目的，本发明提供的技术方案包括：

本发明第一方面提供一种文本事件信息提取方法，其特征在于，所述方法包括：

对文本进行预处理，所述预处理包括对文本进行分词划分，并将分词做向量转换后得到词向量，以及将所述词向量输入至神经网路模型，通过所述神经网路模型输出实体；

对文本进行分块处理，得到文本块，并进行文本块分类提取处理，所述文本块分类提取处理包括：基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将所述文本块中的分词和实体按照所述文法定义的对应模式规则，整理成结构化后的文本块；

对所述文本中结构化后的文本块进行事件信息提取处理，所述事件信息提取处理包括使用所述文法定义的对应模式规则实现关键字抽取，并把关键字输出到事件信息提取对应的结果模板中。

本发明实施例优选地实施方式中，当文本为个人简历时，所述个人简历分块处理后包括基本信息对应第一文本块、教育经历对应第二文本块、工作经历对应第三文本块、培训经历对应第四文本块、资格证书对应第五文本块、求职意愿对应第六文本块；所述格式特征分别包括基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿对应的信息特征；所述文法定义的模式规则包括按照编译原理中的词法分析、语法分析，以及语义分析定义的判断规则。

本发明实施例优选地实施方式中，所述对文本进行分词划分包括：在核心词典的组织中，采用双数组trie树的方法；针对交集型分词歧义，采用规则与统计相结合的方法；针对未登录词识别，采用基于条件随机场的识别方法。

本发明实施例优选地实施方式中，所述深度神经网络模型包括Embedding层、双向RNN层和CRF层；所述Embedding层将所述分词进行向量转换后得到词向量，依次送入双向RNN层，得到分词标签的概率分布，所述分词标签的概率分布送入所述CRF层，得到实体对应的实体标签序列。

本发明实施例优选地实施方式中，所述模式规则为可修改的，所述规则的配置信息提取模型，能够根据不同的应用场景分别进行配置；并且所述模式规则中设置有类属信息，所述文本预处理还包括文本行内上下文规则分析，所述文本行内上下文规则分析包括对文本进行分词切分和实体识别的结果，采用预定的规则校正方法对分词结果进行修正，对有歧义的类属进行重新标识。

本发明实施例优选地实施方式中，所述模式规则包括化简合并规则，并且将复杂的长规则放在前面，将简单的短规则放在后面。

本发明实施例优选地实施方式中，所述将所述文本块中的分词和实体按照对应的模式规则，整理成结构化后的文本块包括：采用模式规则顺序判断连续行是否符合特定的模式，并在完成文本符合对应特定模式结束后，将各行匹配上的模式规则结果存入字符串类型的多维数组中。

本发明实施例优选地实施方式中，所述规则的配置信息提取模型采用规则描述语言NPRDL进行表达书写的，NPRDL语言采用的是BNF范式；并且所述描述语言是基于复杂特征集的手段来描述词汇的语法语义信息，同时在动态分析中使用基于复杂特征集描述的动态属性表来描述。

本发明第二方面还提供一种电子装置，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面提供的任意一种所述的方法。

本发明第三方面还提供一种非易失性存储介质，其上存储有计算机程序，其特征在于，该计算机程序被执行时实现如第一方面提供的任意一种所述方法的步骤。

采用本发明提供的上述技术方案，可以获得以下有益效果：

1、利用神经网络的数学模型，对文本进行分词切分和实体识别，可以快速得到文本中的基本要素，结合模式规则的方式对文本进行文本块分类信息提取，将文本块中的分词和实体按照文法定义的对应模式规则，整理成结构化后的文本块，这样以更利于信息提取的方式将文本信息按照计算机语言要求的文法表达式结构化，而在文本分块结构化处理的基础上再进行事件提取，有效解决数据分散、稀疏以及抽取域距离事件表述中心较远的问题，这样文本事件信息的准确提取；而且实体识别包括采用深度神经网络模型进行识别，提升了识别效果。

2、作为优选的实施方式，在模式规则包括有类属信息，所以通过引入外置可自定义的类属词典，让模式规则的使用更加方便。

3、模式规则的基础是可修改的，例如，采用规则描述语言NPRDL进行表达书写的，NPRDL语言采用的是BNF范式；针对不同应用场景，可以灵活快速的配置信息提取模型。

4、将复杂的长规则放在前面，将简单的短规则放在后面；由于规则匹配从前至后进行，避免可能会出现先与前面的规则匹配成功、后面的则因为没有遍历到，而造成匹配失败的技术问题。

发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

图1为本发明实施例提供一种文本事件信息提取方法的流程图。

图2为本发明实施例提供一种文本事件信息提取方法中文本预处理的流程图。

图3为本发明实施例提供一种文本事件信息提取方法中文本块分类提取的流程图。

图4为本发明实施例提供一种文本事件信息提取方法中事件信息提取的流程图。

图5为本发明实施例提供一种文本事件信息提取装置的结构框图。

图6为本发明实施例提供一种电子装置的结构框图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，这些具体的说明只是让本领域普通技术人员更加容易、清晰理解本发明，而非对本发明的限定性解释；并且只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组控制器可执行指令的控制系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

下面通过附图和具体实施例，对本发明的技术方案进行详细描述：

实施例

为了解决现有技术中事件信息提取的技术方案存在模型建立困难或准确率不高的技术问题，本实施例提出了一种事件抽取方法和装置，先用神经网络对文本进行预处理，再对文本进行分块，从不同的文本块中提取相应的事件信息。

如图1所示，本实施例提供一种文本事件信息提取方法，该方法包括：

S110、对文本进行预处理，预处理包括对文本进行分词划分，并将分词做向量转换后得到词向量，以及将词向量输入至神经网路模型，通过神经网路模型输出实体。

本实施例中的文本预处理，在对文本进行分词切分和实体识别之前，还包括文本格式对齐：将连续空格去掉保留一个，将包含有多个“关键字”+“：”+“槽信息”结构的行分割为单行；将所有出现在文本中的全角字符转换为半角字符，将所有出现在文本中的大写英文字母转换为小写英文字母。

本实施例优选地实施方式中，对文本进行分词划分包括：在核心词典的组织中，采用双数组trie树的方法；针对交集型分词歧义，采用规则与统计相结合的方法；针对未登录词识别，采用基于条件随机场的识别方法。

如图2所示，本实施例优选地实施方式中，深度神经网络模型包括Embedding层、双向RNN层和CRF层；Embedding层将分词进行向量转换后得到词向量，依次送入双向RNN层，得到分词标签的概率分布，分词标签的概率分布送入CRF层，得到实体对应的实体标签序列。即本实施例优选的实施方式中，采用分词采用词典分词与统计分词相结合的方法：

1)、在核心词典的组织方面，考虑到词典查找的时间效率、存储的空间效率、汉语的统计规律等特征，采用了双数组trie树的方法；双数组trie的英文全称为Double ArrayTrie，是trie树的一个简单而有效的实现，由两个整数数组构成，一个是base[]，另一个是check[]；设数组下标为i，如果base[i]，check[i]均为0，表示该位置为空；如果base[i]为负值，表示该状态为词语；Check[i]表示该状态的前一状态，t＝base[i]+a,check[t]＝i。

2)、歧义消除和未登录词是中文分词的两大难点，针对交集型分词歧义，采用了规则与统计相结合的方法。

3)、针对未登录词识别，采用了基于条件随机场的识别方法。

4)、针对词性标注，采用了基于隐马尔科夫模型的方法。

具体地，实体识别是对所有出现在文本中的日期、时间、电话、人名、地名、机构名等加以识别和标注(即实体也可以看成是属于一种特定处理后的分词)。采用基于深度学习方法进行实体识别，将实体识别任务当做基于序列标注的分类问题，该方法使用的深度神经网络主要包括Embedding层(主要有词向量，字符向量以及一些额外特征)，双向RNN层，TANH隐层以及最后的CRF层构成；这里RNN常用LSTM或者GRU。如图2所示，将文本预处理具体包括：

1)、文本切分成单字、英文单词、数字、标点符号，在Embedding层构建词向量。

2)、构建词向量后送入双向LSTM模型，LSTM模型可以根据输入序列输出一个切分标签序列。

3)、在LSTM的输出端使用Soft max函数，得到分词标签的概率分布。

4)、将切分标签序列的概率分布送入CRF模型，得到最优的实体标签序列；这里提及“最优的”仅仅是为了表示通过CRF模型得到的实体标签序列的结果佳，并非对其进行具体的限制。

本实施例优选的实施方式中，文本预处理还包括文本行内上下文规则分析，文本行内上下文规则分析包括对文本进行分词切分和实体识别的结果，采用预定的规则校正方法对分词结果进行修正，对有歧义的类属进行重新标识。而类属信息可用于下文中提及的模式规则。

由于目前的分词、实体识别都不可能达到100％准确率，所以需要通过预定的规则校正方法对分词结果进行修正，对有歧义的类属进行重新标识。预定的规则校正方法的具体实现，例如可以利用ngram模型或者自定义的文法规则来消除歧义的中文分词。

本实施例中，命名实体识别的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。

需要说明的是，本实施例中提及的文本包括但不限于：内容是纯文本格式的文本，或者带可编辑文字和文字的文本，文本的表现形式包括但不限于网页格式、服务器存储的文档格式等。

S120、对文本进行分块处理，得到文本块，并进行文本块分类提取处理，文本块分类提取处理包括：基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将文本块中的分词和实体按照文法定义的对应模式规则，整理成结构化后的文本块。

本实施例优选地实施方式中，当文本为个人简历时，个人简历分块处理后包括基本信息对应第一文本块、教育经历对应第二文本块、工作经历对应第三文本块、培训经历对应第四文本块、资格证书对应第五文本块、求职意愿对应第六文本块；格式特征分别包括基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿对应的信息特征；文法定义的模式规则包括按照编译原理中的词法分析、语法分析，以及语义分析定义的判断规则。

本实施例优选地实施方式中，模式规则为可修改的，规则的配置信息提取模型，能够根据不同的应用场景分别进行配置；并且模式规则中设置有类属信息，文本预处理还包括文本行内上下文规则分析，文本行内上下文规则分析包括对文本进行分词切分和实体识别的结果，采用预定的规则校正方法对分词结果进行修正，对有歧义的类属进行重新标识。而模式规则可以大意理解为按照不同的模式(或者应用场景)，调整提取事件信息提取模型对应的规则(或者基于不同场景使用不同的规则)。本实施例中的规则可以是条件语句表达式，也可以是多种输入输出引射表等，而不同模式的识别可以基于文本自身应用场景来确认，也可以通过自动识别文本中关键词来实现；本实施例不对其进行限制，这些不同的实施方式都属于本实施例的保护范围。

本实施例优选地实施方式中，模式规则包括化简合并规则，并且将复杂的长规则放在前面，将简单的短规则放在后面。将复杂的长规则放在前面，将简单的短规则放在后面；由于规则匹配从前至后进行，避免可能会出现先与前面的规则匹配成功、后面的则因为没有遍历到，而造成匹配失败的技术问题。

本实施例优选地实施方式中，将文本块中的分词和实体按照对应的模式规则，整理成结构化后的文本块包括：采用模式规则顺序判断连续行是否符合特定的模式，并在完成文本符合对应特定模式结束后，将各行匹配上的模式规则结果存入字符串类型的多维数组中。下文会结合图3进一步详细解释说明。

其中，文本块分类提取处理建立在可修改的模式规则的基础上的，针对文本格式特征而定义的判定信息类型的规则，模式就是各类信息的格式特征集。可以由定义文法导出这种模式规则，它的解释可以借用编译原理中的词法分析、语法分析，以及语义分析的方法。

作为本实施例优选的实施方式，在模式规则包括有类属信息，所以通过引入外置可自定义的类属词典，让模式规则的使用更加方便。

本实施例中，模式规则形式化定义：

<模式名称>:<类属1>[&,|,-,^,(,)]<类属2>[&,|,-,^,(,)]…[&,|,-,^,(,)]<类属n>

:右边部分是由规则文法所定义的与(&)、或(|)、非(-)、异或(^)、括弧((,))等所组成的表达式。

分块规则用于顺序判断连续行是否符合特定模式；

例如：x_y_0_S_1_z；x_y_1_M_n_z；x_y_2_E_1_N->SUCCESS，其意义是：x_y_0_S_1_z、x_y_1_M_n_z、x_y_2_E_1_N分别是分块中的类别名称，其规则由词汇类属和运算符组成，&为逻辑与，|为逻辑或，-为逻辑非，如下：

x_y_0_S_1_z:“key1_&loc-key0”

则规则匹配的意义是：“若文本行中key1_和loc类属均有出现，且key0类属不出现，则符合x_y_0_S_1_z分类模式”。

类别名称的意义是：

x是各信息类别匹配的优先数，从(0……)1开始，优先数越小则优先级越大；

y是规则的下标，从(0……)0开始，同时也表明同一信息类别中匹配的优先数；

x_y_后第1位是规则子条件的序号，从0开始递增，为降低复杂度，限定序号<5；

第2位是规则子条件的相对位置，'S'为开始，'M'为中间，'E'为结束；

第3位是规则子条件限制匹配的行数，1～9的自然数或者为n-无限制。

z指示该行需标记的信息类别，从(0……)1开始，N为默认事件信息类别。

若第k行匹配符合x_y_0_S_1_z，第k+1到第k+1+n行符合x_y_1_M_n_z，第k+1+n+1行符合x_y_2_E_1_N，则第k到第k+1+n+1行匹配成功，标记第k到第k+1+n行的信息类别为1。

x、y、z的值应在相应的预定义范围内，否则程序将停止分块。

为方便规则表达，定义“SYS_TRUE“表示逻辑真。

化简合并规则可以解决规则的重叠和冗余；模式规则应该将复杂的长规则放在前面，将简单的短规则放在后面。具体如图3所示，文本块分类提取的流程包括：

S121、开始，执行文本块分类提取处理。

S122、模式分类，即根据提前设置的模式规则，判断当前文本行属于能满足哪个模式规则，即匹配模式规则“:右边部分”。

S123、判断文本是否结束或者未匹配上任何规则，即当前文本所有的行是否执行完成或者该行文本未匹配上任何规则，如果是，执行步骤S124，否则，返回执行S122。

S124、将各行匹配上的模式对文本行进行分析，并把匹配模式规则“:左边部分”(即：x_y_0_S_1_z分类结果)存入三维数组Cn[a][b][c]中。下标a对应类别第1位x(即：各信息类别匹配的优先数)，下标b对应类别第2位y(即：规则下标)，下标c对应类别第3位(即：规则子条件的序号)。Cn[a][b][c]中存规则条件的最后3位。Cn[a][b][c][0]保存规则子条件的相对位置，Cn[a][b][c][1]保存所限定的匹配行数，Cn[a][b][c][2]保存该行需标记的信息类别。该步骤已经将所有行文本的规则匹配完成，类别结果保存在Cn[a][b][c]中。

S125、判断Cn[a][b][c]是否是文本结束：即从n＝0开始读入Cn[a][b][c]，n累加，直到文本结束；如果Cn[a][b][c]为NULL，表示文本结束，跳转到S129。

S126、判断Cn[a][b][c][0]的值：如果为“E”表示该类别的规则匹配结束，跳转到S128；如果为“S”或者“M”表示该类别的规则匹配开始或者中间，跳转到S127。

S127、判断b的值是否到达边界：如果为b到达边界，表示该类别匹配结束，则不为该行分类，直接处理n+1行。如果b没有到达边界，则b+1、c+1，继续处理该类别后面的规则，跳转到S126继续判断。

S128、指定行的类别结果：匹配多行从“S”到“E”成功，或匹配单行“E”成功，将这些行合并并且将分块类别标记为Cn[a][b][c][2]。然后n+1，处理下一行。

S129、匹配结束。

S130、对文本中结构化后的各类别文本块分别进行事件信息提取处理，事件信息提取处理包括使用文法定义的对应模式规则实现关键字抽取，并把关键字输出到事件信息提取对应的结果模板中。

因此本实施例提供的文本事件信息提取方法，利用神经网络的数学模型，对文本进行分词切分和实体识别，可以快速得到文本中的基本要素，结合模式规则的方式对文本进行文本块分类信息提取，将文本块中的分词和实体按照文法定义的对应模式规则，整理成结构化后的文本块，这样以更利于信息提取的方式将文本信息按照计算机语言要求的文法表达式结构化，而在文本分块结构化处理的基础上再进行事件提取，有效解决数据分散、稀疏以及抽取域距离事件表述中心较远的问题，这样文本事件信息的准确提取；而且实体识别包括采用深度神经网络模型进行识别，提升了识别效果。

本实施例优选地实施方式中，规则的配置信息提取模型采用规则描述语言NPRDL进行表达书写的，NPRDL语言采用的是BNF范式；并且描述语言是基于复杂特征集的手段来描述词汇的语法语义信息，同时在动态分析中使用基于复杂特征集描述的动态属性表来描述。

因此，作为本实施例优选的实施方式，模式规则的基础是可修改的，例如，采用规则描述语言NPRDL进行表达书写的，NPRDL语言采用的是BNF范式；针对不同应用场景，可以灵活快速的配置信息提取模型。另外，将复杂的长规则放在前面，将简单的短规则放在后面；由于规则匹配从前至后进行，避免可能会出现先与前面的规则匹配成功、后面的则因为没有遍历到，而造成匹配失败的技术问题。

具体地，从文本块里提取出事件各类关键字的具体实现方式：利用各类信息本身的格式特征，主要是各类信息的组织特征，采用规则的方法识别。例如：识别“学校”，一种可以利用的情况是“地点”+“学校”(或“大学”、“学院”等)，这样的实例如：“北京大学”等，识别“单位名称”，一种可以利用的情况是“就职于”(或“任职于”等)+其他信息+“公司”(或“集团”、“办事处”等)，这样的实例如：“就职于北京TRS公司”。

更具体地，对文本中文本块进行事件信息提取处理包括：

一)、规则描述语言NPRDL

系统中的规则是采用规则描述语言NPRDL进行表达书写的，NPRDL语言采用的是BNF范式。NPRDL语言的基本单位是<规则>，一个<简单规则>实际上相当于自然语言的一个简单“条件句”，其基本形式为：

<测试>＝><操作>

意义：如果<测试>成功，则执行<操作>。

<测试>和<操作>是按功能划分的，由于两者涉及的对象相同(即分析统一输入句子)，可以统一成下面结构图的形式：

在实际分析中，<结构式>可用来表达分析语句的一个片段，其中<结构项>与语句中的‘词’相对应。由<项标记><项操作><项元素>组成的顺序结构，可用来表达对这词有关属性的测试或操作。

NPRDL语言的描述对象是以词为基本对象单位的汉语语句及其中间结构(如语法树、概念语义网络等)。其中包括：

1、每个词语的信息，表示为：概念(属性1，属性2，…，属性n)。其中概念常用词语本身表示。

2、在分析过程中，以某词为中心词而出现的有关短语，子句等属性(如短语类、句类、语气等等)，可归结为该中心词的属性。

3、概念与概念之间的关系，可表示为：

关系

概念——>概念

一个句子(或其中一部分)，可表示为如下形式的<词>序列：<词>+<词>+…+<词>。在规则描述中，称上式为<结构式>，其中每个<词>称为一个<结构项>。<词>序列对应的<结构式>为：<结构项>+<结构项>+…+<结构项>。

(1)每个<结构项>对应一个<词>，内容包括：

<项标记>：用以指出该词在句子中的位置。

<项操作>：用以指出对该词有关属性的操作。

<项元素>：用以表达该词的某些属性。

(2)符号‘+’为结构连接符，表示其前后两个<结构项>具有相邻性和顺序性。

(3)具有父子关系的两个<结构项>用↑(代表父亲)或↓(代表儿子)表示两者处于不同的层次结构中。

例：^(VV,2033)+^↓#(NN,111,SUBJECT)＝>(^↓#.GRELA:＝AGT)

意义：若当前词是(动词、思想活动)，并且当前词某儿子是(名词，人，上位动词的主语)，则将当前词的该儿子的格关系修改为施事格。

该规则描述语言有三个特点：

1、描述能力强，描述语言是基于复杂特征集的手段来描述词汇的语法语义信息，同时在动态分析中使用基于复杂特征集描述的动态属性表来描述，由此可从多层次、多方面来描述汉语文本分析单位的信息。

2、便于计算机处理，描述语言提供丰富的树、网原子操作动作，对于计算机处理分析中形成的语法树、语义操作十分方便，同时对静态属性表信息的查询、修改和删除也提供了丰富的原子操作动作。

3、便于书写规则，规则语言不但描述能力强，而且描述十分细致。对于许多描述颗粒度比较小的语言现象，完全可用词语、词类、语音分类码等唯一描述的方法来描述。又由于规则采用描述思想设计，对于用户来说，书写直观、方便。

二)、上下文分析规则

关键字抽取的规则可以用如下巴克斯式表示：

规则::＝^测试＝>动作

测试::＝测试式；{测试式；}

测试式::＝n,测试项{(&|||+)测试项}|n,～{&测试项}

测试项::＝属性(＝|！＝)’属性值’

属性::＝lex|class

属性值::＝词汇|类属特征

动作::＝动作式{；动作式}

动作式::＝n,n,类属特征,词性

其中：

(1)^表示规则开始符号

(2)～表示某一个结点指针结构

(3)n表示自然数，具体数字表示节点个数，为1-9

(4)lex和class指示其后的属性值是具体的词条还是具体的类属，如果是lex，则其后的属性值为具体的’词条’；如果是class，则其后的属性值为具体的’类属’。

(5)类属特征表示词典中的类属，如：org等。

三)、具体的应用举例

分析出生日期(birthday)的一条相应模式规则如下：

^1,lex＝'出生于'；1,class＝'time'；＝>2,2,birthday,n

意思是第1结点的词条是“出生于”，第2结点的类属是“time”，则将第2个结点的类属标识为“birthday”。

四)、模式规则的合并和组织

规则会逐渐膨胀，也可能会重叠，所以会有冗余，化简合并规则可以解决这个问题，例如：

^1,class＝'time'；n,～&lex！＝'￥'；1,class＝'from'；＝>1,1,106,n

和^1,class＝'time'；n,～&lex！＝'￥'；1,class＝'to'；＝>1,1,106,n

这两条规则可以合并为一条规则，利用模式规则文法的性质，满足结合律和分配律，合并后的规则为：

^1,class＝'time'；n,～&lex！＝'￥'；1,class＝'from'|class＝'to'；＝>1,1,106,n

这使逻辑更加严密。

因为规则匹配是从前至后进行的，可能会先与前面的规则匹配成功，而后面的则因为没有遍历到而匹配失败，有时可能会造成错误。所以模式规则应该将复杂的长规则放在前面，而将简单的短规则放在后面。

如图4所示，本实施例中，文本事件信息提取方法中事件信息提取包括：

S131、确认文本和抽取类型，例如基于前面提及针对文本格式特征而定义的判定信息类型的规则。

S132、打开规则文件，即打开配置信息提取模型所在的文件。

S133、从文本获取一行字符串。

S134、文本预处理，包括对文本进行分词切分和实体识别。

S135、装入文本容器，将分词切分和实体识别后的这行字符串按照预处理的格式保存起来。

S136、使用模式规则分块提取，即按照前述S120中提及的方式对文本进行文本块划分和文本块分类提取处理。

S137、根据分块类别使用规则解释器分析标注各类关键词。

S138、把关键字输出到结果模板中。

S139、判断文本结束，如果是则将文本进行标准化或输出(S140)；否则，返回是S133。

如图5所示，本实施例还提供一种文本事件信息提取装置100，该文本事件信息提取装置100包括：

文本预处理模块110，设置成对文本进行预处理，预处理包括对文本进行分词划分，并将分词做向量转换后得到词向量，以及将词向量输入至神经网路模型，通过神经网路模型输出实体。

文本块分类提取处理模块120，设置成对文本进行分块处理，得到文本块，并进行文本块分类提取处理，文本块分类提取处理包括：基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将文本块中的分词和实体按照文法定义的对应模式规则，整理成结构化后的文本块。

事件信息提取处理模块130，设置成对文本中结构化后的文本块进行事件信息提取处理，事件信息提取处理包括使用文法定义的对应模式规则实现关键字抽取，并把关键字输出到事件信息提取对应的结果模板中。

需要说明的是，本实施例提供的文本事件信息提取装置100中对文本处理的具体过程与上述利用统计与规则相结合的文本事件信息提取方法相同，并且也能取得相同的技术效果；在此不再赘述。

为了是本领域技术人员更容易理解本实施例的技术方案，下面以以简历文本对应事件信息提取为例，对文本信息提取展开具体的说明；假设需要提取基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿等六大项，共几十项属性信息。具体的文本事件信息提取包括：

一)、文本预处理

1.定义事件信息提取内容

INFOTYPE1TResume_TRS#基本信息

1_00IgnoreFlag#

1_01TrueName#求职者其实姓名

1_02Email#电子邮箱地址

1_03Mobel#手机号码

1_04Phone#电话号码

1_05Sex_s#性别

…

INFOTYPE2TEducation_TRS#教育经历

2_00E_StartTime_s#教育起始日期

2_01E_StartTime_d#

2_02E_EndTime_s#教育结束日期

2_03E_EndTime_d#

2_04E_SchoolName#学校名称

…

INFOTYPE3TWorkExperierence_TRS#工作经历

3_00InductionDate_s#工作起始日期

3_01InductionDate_d#

3_02DimissionDate_s#工作结束日期

3_03DimissionDate_d#

3_04CompanyName#公司名称

…

2.定义类属词典

为方便规则的编写，可通过对人工观察提取出一些关键词。这些词可能已经被切分成一个词，也可能被切成几个词。将其添加入class.GB中并给每一个词条后都添加\t和类属名称，例如：

姓名kr1#kr1_01

电子邮件kr1#kr1_02

手机号码kr1#kr1_03

电话kr1#kr1_04

性别kr1#kr1_05

婚否kr1#kr1_07

…

3.文本分词和实体识别

对文本进行分词和实体识别，会对每一个分词结果都自动给定类属。系统内置类属包括：name(人名)、loc(地名)、org(机构名)、id(身份证号)、digit(数值)等。

二)、文本块分类

根据定义的信息提取内容，需要将简历文本分成六块。以基本信息分块为例，编写模式规则如下：

1_00_0_S_1_1:kr1&kru-(bdfhm|bdfhk)

1_00_1_E_n_1:(SYS_TRUE-kru)|(kru&(bdfhm|bdfhk)-kr9)

1_01_0_S_1_1:kr1&kru&bdfhm

1_01_1_E_n_1:(SYS_TRUE-kru)|(kru-bdfhm-kr9)

1_02_0_S_1_1:kr1&kru&bdfhk

1_02_1_E_n_1:(SYS_TRUE-kru)|(kru-bdfhk-kr9)

1_03_0_S_1_1:kr1&(bdfhm|kru)

1_03_1_E_n_1:SYS_TRUE-(bdfhm|kru)

1_04_0_S_1_1:english-(kr0|kr1|kr2|kr3|kr4|kr5|kr6|kr7|kr8|kr9)

1_04_1_E_n_1:kr1-kru

三)、信息提取

以基本信息为例，信息提取规则编写如下：

1).根据类属直接识别

^1,class＝'name'；＝>1,1,1_01,n

表示，将类属是name的识别成简历姓名。

2).根据上下文关键字识别，例如：

^1,class＝’kr1_01’；

1,class＝’bdfhm’；

n,～&class！＝'bdfh'&class！＝'kr'；

1,class＝'row'|class＝'kr'；

＝>3,3,1_01,n

上述表达式表示：以“kr1_01+冒号”开头的，后面直到遇到换行或者其他关键字，则识别该中间的多个节点为简历姓名。

如图6所示，本实施例还提供一种电子装置，包括：

存储器210；

处理器220；以及

计算机程序；

其中，计算机程序存储在存储器210中，并被配置为由处理器220执行以实现如上述提供的任意一种文本事件信息提取方法。

另外，本实施例还提供一种非易失性存储介质，其上存储有计算机程序，该计算机程序被执行时实现如上述提供的任意一种利用统计与规则相结合的文本事件信息提取方法的步骤。

本领域普通技术人员可以理解：上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC、FPGA或SoC)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

最后需要说明的是，上述说明仅是本发明的最佳实施例而已，并非对本发明做任何形式上的限制。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围内，都可利用上述揭示的做法和技术内容对本发明技术方案做出许多可能的变动和简单的替换等，这些都属于本发明技术方案保护的范围。

Claims

1.一种文本事件信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，当文本为个人简历时，所述个人简历分块处理后包括基本信息对应第一文本块、教育经历对应第二文本块、工作经历对应第三文本块、培训经历对应第四文本块、资格证书对应第五文本块、求职意愿对应第六文本块；所述格式特征分别包括基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿对应的信息特征；所述文法定义的模式规则包括按照编译原理中的词法分析、语法分析，以及语义分析定义的判断规则。

3.根据权利要求1所述的方法，其特征在于，所述对文本进行分词划分包括：在核心词典的组织中，采用双数组trie树的方法；针对交集型分词歧义，采用规则与统计相结合的方法；针对未登录词识别，采用基于条件随机场的识别方法。

4.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型包括Embedding层、双向RNN层和CRF层；所述Embedding层将所述分词进行向量转换后得到词向量，依次送入双向RNN层，得到分词标签的概率分布，所述分词标签的概率分布送入所述CRF层，得到实体对应的实体标签序列。

5.根据权利要求1所述的方法，其特征在于，所述模式规则为可修改的，所述规则的配置信息提取模型，能够根据不同的应用场景分别进行配置；并且所述模式规则中设置有类属信息，所述文本预处理还包括文本行内上下文规则分析，所述文本行内上下文规则分析包括对文本进行分词切分和实体识别的结果，采用预定的规则校正方法对分词结果进行修正，对有歧义的类属进行重新标识。

6.根据权利要求1所述的方法，其特征在于，所述模式规则包括化简合并规则，并且将复杂的长规则放在前面，将简单的短规则放在后面。

7.根据权利要求1所述的方法，其特征在于，所述将所述文本块中的分词和实体按照对应的模式规则，整理成结构化后的文本块包括：采用模式规则顺序判断连续行是否符合特定的模式，并在完成文本符合对应特定模式结束后，将各行匹配上的模式规则结果存入字符串类型的多维数组中。

8.根据权利要求1-7中任意一种所述的方法，其特征在于，所述规则的配置信息提取模型采用规则描述语言NPRDL进行表达书写的，NPRDL语言采用的是BNF范式；并且所述描述语言是基于复杂特征集的手段来描述词汇的语法语义信息，同时在动态分析中使用基于复杂特征集描述的动态属性表来描述。

9.一种电子装置，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任意一种所述的方法。

10.一种非易失性存储介质，其上存储有计算机程序，其特征在于，该计算机程序被执行时实现如权利要求1-8中任意一种所述方法的步骤。