CN109710947B

CN109710947B - 电力专业词库生成方法及装置

Info

Publication number: CN109710947B
Application number: CN201910058614.8A
Authority: CN
Inventors: 庄莉; 王秋琳; 宋立华; 张垚; 陈江海
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2021-09-07
Anticipated expiration: 2039-01-22
Also published as: WO2020151218A1; CN109710947A

Abstract

一种电力专业词库生成方法及装置，其中方法包括如下步骤，获取电力相关语料，对相关语料进行切词，得到候选词，对候选词进行互信息值计算，设定互信息值阈值，将互信息值小于互信息值阈值的词剔除。解决现有技术中电力专业词库杂乱不准确，无法满足实际需求的问题。

Description

电力专业词库生成方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种电力行业中专业词库的生成方法及装置。

背景技术

分词技术是自然语言处理中比较基础但又非常重要的技术，在中文语言中单字作为最基本的语义单位，虽然也有自己的意义，但表意能力较差，意义较分散，而词的表意能力更强，能更加准确的描述一个事物，因此在自然语言处理中，通常情况下词(包括单字成词)是最基本的处理单位。对于英文等拉丁语系的语言而言，由于词之间有空格作为词边际表示，词语一般情况下都能简单且准确的提取出来。而中文语言除了标点符号之外，字之间紧密相连，没有明显的词边界，因此很难将词提取出来。中文分词方法大致分为两种：基于词典的切分，基于统计模型的序列标注切分两种方式，基于词典切分是比较常用且高效的分词方式，其前提是要有词库。

电网公司目前已经积累了大量的电力行业专业语料，为了通过文本分析、挖掘技术对这些语料进行充分利用，当前迫切的需要一个较准确、完整的电力行业词库。

目前的语言分析处理方法主要有基于如下方面：

一、基于CRF(条件随机场)算法的专业词发现

CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型，假设X，Y分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量，那么条件随机场(X,Y)就是一个以观察序列X为条件的无向图模型，条件随机场的目标是在给定需要标记的观察序列的条件下，使标记序列的联合概率达到最优。方案一通常做法是在人工优选语料中标注出专业领域词，然后利用标注好的语料进行机器学习的CRF模型训练，最后输入专业语料让模型识别出专业词。

方案一对于专业词的识别效果还是较好的，但是前提是要有领域业务专家先对语料进行大量专业词标注，为CRF模型训练提供标注数据。此方案的不足之处就是需要行业专家参与训练数据标注，且需要标注的数据量较大，效率较低。

二、基于统计学原理的专业词库生成

基于统计学原理的词库生成方法不依赖于已有的词库，通常根据词的词频、互信息、左右信息熵特征，将一段大规模语料中可能成词的文本片段全部提取出来，不管它是专业词还是普通词。然后，再把所有抽出来的词通过设置阈值进行过滤筛选，得到词库。

方案二的词库生成过程是完全无监督的，不需要行业专家进行语料标注工作且效率较高，这是其主要优点。方案二的不足之处是仅仅通过词频、互信息、左右熵的词特征来筛选专业词存在准确率较低的缺点。

发明内容

为此，需要提供一种电力专业词库生成方法，解决现有技术中电力专业词库杂乱不准确，无法满足实际需求的问题；

为实现上述目的，发明人提供了一种电力专业词库生成方法，包括如下步骤，

获取电力相关语料；

对电力相关语料进行切词，得到候选词；

对候选词进行互信息值计算；

将互信息值小于预设互信息值阈值的词剔除。

可选地，所述步骤对相关语料进行切词，得到候选词具体包括：

所述对电力相关语料进行切词，得到候选词，具体包括：

对中文符号分割出的短句根据预设定长长度进行定长切词，得到多个定长切词结果；

对每个定长切词结果，截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。

可选地，还包括步骤，对候选词进行左右信息熵计算，将左右信息熵小于预设的左右信息熵阈值的词剔除。

可选地，还包括步骤，对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

可选地，还包括步骤，对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

一种电力专业词库生成装置，包括：

获取模块，用于获取电力相关语料；

切词模块，用于对电力相关语料进行切词，得到候选词；

计算模块，用于对候选词进行互信息值计算；

剔除模块，用于将互信息值小于预设互信息值阈值的词剔除。

具体地，

所述切词模块具体包括：

切词单元，用于对中文符号分割出的短句根据预设定长长度进行定长切词，得到定长切词结果；

分词单元，用于截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。

具体地，还包括左右信息熵计算模块，所述左右信息熵计算模块用于对候选词进行左右信息熵计算，将左右信息熵小于预设左右信息熵阈值的词剔除。

可选地，还包括标注删除模块，所述标注删除模块用于，对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

可选地，还包括排序模块，排序模块用于对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

区别于现有技术，本发明可以通过对电力专业语料进行切词，对切词结果进行相关计算从而使得电力专业的词库更加准确，更加有实用性。

附图说明

图1为本发明一实施方式涉及的电力专业词库生成方法的流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为一种电力专业词库生成方法，包括如下步骤，S100获取电力相关语料，对相关语料进行切词，得到候选词，S102对候选词进行互信息值计算，设定互信息值阈值，将互信息值小于互信息值阈值的词剔除。

在具体的实施例中，我们的电力相关语料进行全切词，具体包括步骤，

对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小推荐6-8)。这样处理的好处在于能够使得定长切词结果能够更加全面，窗口大小选择能够满足进一步细分的切词需要并囊括更多可用的结果。具体的实施例中，对“绕线型转子的变极感应电动机”这句进行窗口为6的N-gram切分，会得到下列切分结果，即定长切词结果：

绕线型转子的

线型转子的变

型转子的变极

转子的变极感

子的变极感应

的变极感应电

变极感应电动

极感应电动机

继续的步骤中，还可以对每个定长切词结果，截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。具体的，分词的步长用于对定长切词结果进行进一步细化，设定n为2至预设定长长度在上例中，就会变成分词取定长切词结果的前2至6个字作为候选词，n每次增加的预设值可以为1，也可以为其他整数。如对“绕线型转子的”进行切词后，会得到如下切分结果：

绕线

绕线型

绕线型转

绕线型转子

绕线型转子的；

通过上述方案，经过定长切词及后续切分词步骤得到的候选词量大而全，同时分两个主要步骤的操作例也能够节省运算资源，并且不会得到过长的候选词结果。最终能够达到有效提高电力专业候选词有效性的效果。

对上述候选词继续进行互信息值的计算，互信息：

互信息值体现了组成当前词的各个字或词之间结合的紧密程度，互信息值越大成词的可能性也越大，计算公式如下：

其中p(x)，p(y)分别是候选词中的字或词组分x和y单独出现的概率，p(x，y)是x和y同时出现的概率。通过进行互信息值的计算，并删除互信息值小于阈值的操作方式，能够剔除大概率不成词的字组合，以及不成合成词的词组合，同时提高了本发明方法对候选词筛选之后的有效率。

其他一些进一步的实施例中，还包括步骤，S104对候选词进行左右信息熵计算，设定左右信息熵阈值，将左右信息熵小于该阈值的词剔除。通常一个词可以在各种语境中使用，因此一个词的左右组合比较多，可以用信息熵来表示这个词在语料库中左右组合的丰富程度。通过进行左右信息熵阈值的筛选，可以删除固定词组中部分词被单独作为候选词的情况，提高电力领域专业词库的行业适用性。最终形成的词库可以更为科学。

其他一些实施例中，还可以包括步骤，S106对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。词性标注工具可以借助现有技术，常用带词性标注的分词工具可以包括：jieba、nltk、HanLP、Ansj等，具体用于对候选词中的细分分词词性进行标注，从而得到候选词的词性组合特点，根据词性组合特点再进行删除，例如，较高成词概率的组合：名词+名词、动词+名词、名词+动词等，而较低成词概率的组合有：动词+动词、介词+名词、介词+动词、副词+动词等，可以通过设计删除规则表将具有动词+动词、介词+名词、介词+动词、副词+动词等组分词性的词进行删除，达到候选词优化的效果，提高候选词的有效率，更好地达到电力专业词库构建的效果。

另一实施例中，如图1所示，我们的方法方案还包括步骤，S108对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。TF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正相关增加，但同时会随着它在语料库中出现的频率成负相关下降，计算公式如下：

其中,

表示在语料d中，词w出现的次数，N表示语料总数，N_w表示含有词w的语料数量。通过计算上述TFIDF值进行候选词的排序，并将排序好的结果呈现给用户，将重要程度最高的词选排在最前，能够进一步优化用户的使用体验。

在图1所示的另一些实施例中，本发明方法进行如下步骤：

S100获取电力相关语料，对相关语料进行切词，对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小6)，再对各定长切词结果中进行再分词，再分词的步长为2至6，得到候选词，

S102对候选词进行互信息值计算，设定互信息值阈值，将互信息值小于互信息值阈值的词剔除。

S104对候选词进行左右信息熵计算，设定左右信息熵阈值，将左右信息熵小于该阈值的词剔除。

S106对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

S108对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。

另一些实施例中，本发明方法进行如下步骤：

S100获取电力相关语料，对相关语料进行切词，对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小4)，再对各定长切词结果中进行再分词，再分词的步长为2至4，得到候选词，

S108对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。

另一些实施例中，本发明方法进行如下步骤：

S100获取电力相关语料，对相关语料进行切词，对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小8)，再对各定长切词结果中进行再分词，再分词的步长为2至8，得到候选词，

S108对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。

同时，将步骤S102至S108内的任意步骤进行删除也是能够达到效果，或将步骤S102至S106内的任意步骤进行调换顺序，也是没有问题的。

进一步的实施例中，我们还提供一种电力专业词库生成装置，包括：

获取模块，用于获取电力相关语料；

切词模块，用于对电力相关语料进行切词，得到候选词；

计算模块，用于对候选词进行互信息值计算；

具体地，

所述切词模块具体包括：

优选地，还包括排序模块，排序模块用于对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种电力专业词库生成方法，包括如下步骤：

获取电力相关语料；

对电力相关语料进行切词，得到候选词；

对候选词进行互信息值计算；

将互信息值小于预设互信息值阈值的词剔除；所述对电力相关语料进行切词，得到候选词，具体包括：

2.根据权利要求1所述的电力专业词库生成方法，其特征在于，还包括步骤，对候选词进行左右信息熵计算，将左右信息熵小于预设的左右信息熵阈值的词剔除。

3.根据权利要求1所述的电力专业词库生成方法，其特征在于，还包括步骤，对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

4.根据权利要求1所述的电力专业词库生成方法，其特征在于，还包括步骤，对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

5.一种电力专业词库生成装置，其特征在于，包括：

获取模块，用于获取电力相关语料；

切词模块，用于对电力相关语料进行切词，得到候选词；

计算模块，用于对候选词进行互信息值计算；

剔除模块，用于将互信息值小于预设互信息值阈值的词剔除；

所述切词模块具体包括：

6.根据权利要求5所述的电力专业词库生成装置，其特征在于，还包括左右信息熵计算模块，所述左右信息熵计算模块用于对候选词进行左右信息熵计算，将左右信息熵小于预设左右信息熵阈值的词剔除。

7.根据权利要求5所述的电力专业词库生成装置，其特征在于，还包括标注删除模块，所述标注删除模块用于，对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

8.根据权利要求5所述的电力专业词库生成装置，其特征在于，还包括排序模块，排序模块用于对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。