CN107622129B - 一种知识库的组织方法及装置、计算机存储介质 - Google Patents
一种知识库的组织方法及装置、计算机存储介质 Download PDFInfo
- Publication number
- CN107622129B CN107622129B CN201710911400.1A CN201710911400A CN107622129B CN 107622129 B CN107622129 B CN 107622129B CN 201710911400 A CN201710911400 A CN 201710911400A CN 107622129 B CN107622129 B CN 107622129B
- Authority
- CN
- China
- Prior art keywords
- word
- target
- thesaurus
- tensor
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims description 43
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000010276 construction Methods 0.000 claims description 28
- 230000008520 organization Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000000875 corresponding effect Effects 0.000 description 54
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 239000000463 material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种知识库的组织方法及装置、计算机存储介质,所述方法包括:构建专业词库通用词库对应的张量空间;基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
Description
技术领域
本发明涉及知识管理技术领域,尤其涉及一种知识库的组织方法及装置、计算机存储介质。
背景技术
知识库的构建方式分为人工构建和自动构建,其中,人工构建又可分为专家构建和群体协作,自动构建是基于计算机按照一定的规则对自然语言文本进行提取而实现。
知识库的构建原理一般由以下几部分组成:1)确定要管理的知识,即:确定知识库的范围和边界;2)确定知识的来源和动力,即:确定知识库中知识的来源和持续更新的动力;3)知识库的组织,即:将零散、非关联的知识碎片,整理成系统化分类的相互关联的知识库;4)知识库的利用,即:通过建立的知识库实现知识的利用价值。
对于专家构建方式而言,这种构建方式效率低且成本高昂,难以应对目前互联网带来的知识爆炸和快速更新,不适合构建大规模的知识库;对于群体协作方式而言,这种构建方式专业领域的知识覆盖面小,且由于其开放性,如果不进行人工审核,则会引入大量无效、不相关的信息,如果进行人工审核,又不能做到高效和低成本的特性。对于自动构建方式而言,它是由计算机按照一定的程序逻辑处理原始的自然语言文本集合,提取知识点\条目\文章,自动地构建知识库。
从知识库的构建原理和自动构建知识库的方法可以看出,由计算机自动构建知识库是知识库构建的发展趋势。计算机所采用的处理逻辑是由一系列的数学概率统计方法对文本进行处理,最后按照设定的评价方式进行选择,从而输出知识库。结合知识库的构建原理和计算机自动构建知识库的方法可以看出,对于计算机构建知识库而言,最核心的部分是知识库的组织。
现有技术中,在通过计算机自动构建知识库时,仅仅是基于文本中词的词频和逆文本频率等因素对文本进行分类,分类的准确性较低。
发明内容
为解决上述技术问题,本发明实施例提供了一种知识库的组织方法及装置、计算机存储介质。
本发明实施例提供的知识库的组织方法,包括:
构建通用词库对应的张量空间;
基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;
基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;
基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;
基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
本发明实施例中,所述构建通用词库对应的张量空间,包括:
建立基础词库,以及获取通用词库对应的语料库;
基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
计算所述原始通用词库中的各个单词的第一信息熵值;
从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
本发明实施例中,所述基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量,包括:
针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合;
确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数;
计算所述各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值;
基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
本发明实施例中,所述基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢,包括:
建立基础词库,以及获取目标专业领域词库对应的目标语料库;
基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始目标专业领域词库;
计算所述原始目标专业领域词库中的各个单词的第二信息熵值;
基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
本发明实施例中,所述基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量,包括:
针对所述各目标文件,将所述目标文本的张量在所述基矢中进行投影,得到N个投影分量,其中,所述N个投影分量形成N维向量。
本发明实施例中,所述基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库,包括:
对所述各目标文本的投影分量进行正则化处理;
基于投影分量的正则化结果,计算所述投影分量相对于基矢的角度值;
对所述投影分量相对于基矢的角度值进行聚类处理,以确定各目标文本之间的关系从而组织知识库。
本发明实施例提供的知识库的组织装置,包括:
张量空间构建单元,用于构建通用词库对应的张量空间;
张量确定单元,用于基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;
基矢确定单元,用于基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;
投影分量计算单元,用于基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;
组织单元,用于基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
本发明实施例中,所述张量空间构建单元包括:
建立子单元,用于建立基础词库;
第一获取子单元,用于获取通用词库对应的语料库;
第一分词处理单元,用于基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
第一信息熵值计算单元,用于计算所述原始通用词库中的各个单词的第一信息熵值;
选择子单元,用于从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
构建子单元,用于以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
本发明实施例中,所述张量确定单元包括:
第二分词处理单元,用于针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合;
结果值计算子单元,用于确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数;计算所述各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值;
第一赋值处理子单元,用于基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
本发明实施例中,所述基矢确定单元包括:
建立子单元,用于建立基础词库;
第二获取子单元,用于获取目标专业领域词库对应的目标语料库;
第三分词处理单元,用于基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始目标专业领域词库;
第二信息熵值计算单元,用于计算所述原始目标专业领域词库中的各个单词的第二信息熵值;
第二赋值处理子单元,用于基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
本发明实施例中,投影分量计算单元,具体用于:针对所述各目标文件,将所述目标文本的张量在所述基矢中进行投影,得到N个投影分量,其中,所述N个投影分量形成N维向量。
本发明实施例中,所述组织单元包括:
正则化子单元,用于对所述各目标文本的投影分量进行正则化处理;
角度计算子单元,用于基于投影分量的正则化结果,计算所述投影分量相对于基矢的角度值;
聚类子单元,用于对所述投影分量相对于基矢的角度值进行聚类处理,以确定各目标文本之间的关系从而组织知识库。
本发明实施例提供的计算机存储介质上存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述的知识库的组织方法。
本发明实施例的技术方案中,构建通用词库对应的张量空间;基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。采用本发明实施例的技术方案,通过各目标文本在张量空间中的张量,差异化了各个维度的度量衡,使知识库组织时考虑了语言的原始意义。此外,通过各目标文本的张量在目标专业领域词库的基矢的投影分量,实现了知识库在特定专业领域构成的专业语言场景下,对目标文本内容的原始意思表达的影响,分类的准确性更高,有利于大规模和超大规模的知识库的构建。
附图说明
图1为本发明实施例的知识库的组织方法的流程示意图;
图2为本发明实施例的张量空间的构建流程示意图;
图3为本发明实施例的目标文本的张量的构建流程示意图;
图4为本发明实施例的专业领域词库的基矢的构建流程示意图;
图5为本发明实施例的知识库的组织装置的结构组成示意图;
图6为本发明实施例的张量空间构建单元的结构组成示意图;
图7为本发明实施例的张量确定单元的结构组成示意图;
图8为本发明实施例的基矢确定单元的结构组成示意图;
图9为本发明实施例的组织单元的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
本发明实施例的技术方案,利用了信息熵定理、语言通信原理、张量的坐标系恒定性、张量的分量与基矢的关系、计算机工程方法等,提出了一种新的知识库的组织方案,能将待建知识库的目标文本(如文章、段落或语句),在不同的专业领域的场景下,自动地组织成适合此专业领域的系统化组织的知识库。
本发明实施例的以下技术方案应用于计算机设备,该计算机设备可以是笔记本、台式机、服务器等具有计算能力的设备。
知识库的构建是知识管理实施中的一项重要内容,知识库的构建原理包括以下几个部分:1)确定要管理的知识;2)确定知识的来源和动力;3)知识库的组织;4)知识库的利用。其中,知识库的组织是关键因素,本发明实施例旨在高效地实现知识库的组织。
图1为本发明实施例的知识库的组织方法的流程示意图,如图1所示,所述知识库的组织方法包括以下步骤:
步骤101:构建通用词库对应的张量空间。
本发明实施例中,通用词库是指基于各种中文电子文档所形成的词库。这里,中文电子文档的格式包括但不局限于word格式、ppt格式、pdf格式、txt格式等。此外,中文电子文档还可以是数据库中的文章、段落或语句等原始条目。值得注意的是,本发明实施例的技术方案不局限于中文的电子文档,其他语言的电子文档也可以采用本发明实施例的技术方案。
本发明实施例中,构建通用词库对应的张量空间,可以通过以下过程实现:
建立基础词库,以及获取通用词库对应的语料库;
基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
计算所述原始通用词库中的各个单词的第一信息熵值;
从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
上述方案中,通用词库是指:第一信息熵值大于等于预设信息熵阈值的单词集合所形成的词库。
步骤102:基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量。
本发明实施例中,一个目标文本是知识库中待构建关系的最小单元,比如文章、段落或语句。
本发明实施例中,确定各目标文本在所述张量空间中的张量,可以通过以下过程实现:
针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合;
确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数;
计算所述各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值;
基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
本发明实施例中,通过目标文本在张量空间中的张量,差异化了各个维度的度量衡,使知识库组织时考虑了语言的原始意义,相对于现有技术而言,知识库的组织更加准确。
步骤103:基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢。
本发明实施例中,目标专业领域词库可以是某个特定领域的中文电子文档。值得注意的是,本发明实施例的技术方案不局限于中文的电子文档,其他语言的电子文档也可以采用本发明实施例的技术方案。
本发明实施例中,全部的中文电子文档按领域进行了分类,比如:金融领域的中文电子文档、政治领域的中文电子文档、军事领域的中文电子文档、法律领域的中文电子文档等。
本发明实施例中,目标专业领域词库在所述张量空间中对应一个基矢,确定目标专业领域词库对应于所述张量空间中的基矢,可以通过以下过程实现:
建立基础词库,以及获取目标专业领域词库对应的目标语料库;
基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始目标专业领域词库;
计算所述原始目标专业领域词库中的各个单词的第二信息熵值;
基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
步骤104:基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量。
本发明实施例中,针对所述各目标文件,将所述目标文本的张量在所述基矢中进行投影,得到N个投影分量,其中,所述N个投影分量形成N维向量。
本发明实施例中,通过各目标文本的张量在目标专业领域词库的基矢的投影分量,实现了知识库在特定专业领域构成的专业语言场景下,对目标文本内容的原始意思表达的影响,即:考虑了特定语言环境下,文本的特殊意思,相对于现有技术而言,知识库的组织更加准确。
步骤105:基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
本发明实施例中,基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库,可以通过以下过程实现:
对所述各目标文本的投影分量进行正则化处理;
基于投影分量的正则化结果,计算所述投影分量相对于基矢的角度值;
对所述投影分量相对于基矢的角度值进行聚类处理,以确定各目标文本之间的关系从而组织知识库。
这里,利于余弦定理计算各个投影分量相对于基矢的角度值。
这里,利用K平均值(K-means)等聚类算法对角度值进行聚类处理。
此外,本发明实施例的方案还包括如下内容:
后续新加入知识库的文本,自动加入已组织好的知识库。具体地,对后续新加入知识库的文本,执行上述步骤101-步骤104之后,进行正则化处理,并利用余弦定理计算其角度值,再利用聚类算法对角度值进行分类,归入已经建立好的知识库中。
以下对本发明实施例的上述各个步骤分别进行详细描述。
图2为本发明实施例的张量空间的构建流程示意图,如图2所示,所述流程包括以下步骤:
步骤201:建立基础词库,以及获取通用词库对应的语料库。
本发明实施例中,基于新华词典,建立基础词库。
本发明实施例中,搜集大数据量级别的各种中文电子文档,形成通用词库对应的语料库。
这里,大数据量级别是指PB以上量级的数据量,这里,数据量以计算机的存储空间为单位计算,1PB=1024TB。
步骤202:基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库。
本发明实施例中,将语料库利用短词优先的字符串比对分词方法进行分词,形成原始通用词库。这里,分词处理采用的对比对象为基础词库。
步骤203:针对所述原始通用词库,统计各个单词的出现频率。
步骤204:基于所述各个单词的出现频率,计算所述各个单词的第一信息熵值。
本发明实施例中,利用词频-逆向文件频率(TF-IDF,Term Frequency–InverseDocument Frequency)原理,计算单词的信息熵值。这里,信息熵值代表了单词的重要程度。
步骤205:从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库。
本发明实施例中,用户预先设置信息熵阀值,将原始通用词库中的单词按照信息熵值由大到小进行排序。然后,将信息熵阀值以上的单词的集合作为通用词库。
例如:将通用词库中所有单词的信息熵值降序地排序,假如通用词库中有10万单词,选择信息熵值较大的2万单词,每个单词对应一个维度,维度的模为信息熵值,这样就构成了一个N维的张量空间,N=20000。
步骤206:以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间。
这里,N为通用词库中包括的单词个数,N为正整数。
本发明实施例中,创造性地以张量空间的形式,构建了恒定的衡量专业词汇的数学空间。N维张量空间形式的通用词库、以及张量在不同坐标系下恒定不变的特性,使得通用词库普适于不同的特定专业领域。
图3为本发明实施例的目标文本的张量的构建流程示意图,如图3所示,所述流程包括以下步骤:
步骤301:针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合。
本发明实施例中,将目标文本利用基于机器学习和概率统计的分词方法拆分为概率最大的分词结果,得到第三单词集合。
步骤302:确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数。
步骤303:计算所述各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值。
步骤304:基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
本发明实施例中,以各个单词的结果值对张量空间进行赋值,形成目标文本的张量。
例如:需要对1万个文本进行组织构成知识库,那么将这一万个文档中的其中一个文档进行分词,比如分出了700个单词,其中500个单词是属于通用词库中的单词,那就用这500个单词对应的信息熵值,给N维空间中的对应维度赋值,其他19500个维度全赋予0值,这样就形成了一个张量,可以用矩阵S1(N1,N2,`````,N20000)表示。同样,对剩下的9999个文本进行处理,就会一共得到10000个张量。
本发明实施例中,基于大数据的语料库,确定通用词库,将通用词库中的各个单词(也即各个维度)的信息熵值,作为该单词(也即该维度)对应的基(这里,基是指单位'1'的度量衡),目标文本的各个单词的模是基于该单词的信息熵值和在目标文本中的出现次数而确定的,目标文本的全部单词的模形成张量,如此,异化了各个维度的度量衡,使知识库组织时考虑了文本的原始意义,相对于现有技术而言,知识库的组织更加精准。
图4为本发明实施例的专业领域词库的基矢的构建流程示意图,如图4所示,所述流程包括以下步骤:
步骤401:建立基础词库,以及获取目标专业领域词库对应的目标语料库。
本发明实施例中,基于新华词典,建立基础词库。
本发明实施例中,搜集大数据量级别(P以上量级的)的分类(如金融、政治、军事、法律等)的中文电子文档,形成特定专业领域词库对应的特定语料库。
步骤402:基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始专业领域词库。
本发明实施例中,将目标语料库利用短词优先的字符串比对分词方法进行分词,形成原始目标专业领域词库,这里,分词处理的对比对象为基础词库。
步骤403:针对所述原始目标专业领域词库,统计各个单词的出现频率。
步骤404:基于所述各个单词的出现频率,计算所述各个单词的第二信息熵值。
这里,利用TF-IDF原理计算单词的第二信息熵值。
步骤405:基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
本发明实施例中,如果文本中无某个单词,则此单词对应的模(也即维度值)为0;否则,在此单词对应的模(也即维度值)基于此单词在目标专业领域词库中的信息熵值而确定。
例如:将“军事类”的文本构成的语料库进行处理,可以得到一个“军事类”的基矢,该基矢通过N×N矩阵来表示,其中N=20000,如下公式所示:
这里,S2是20000×20000的对角矩阵,每行只有1个元素是非0的。
本发明实施例的技术方案,创造性地考虑了知识库的组成部分(即形成知识库的目标文本),将各目标文本的原始意思表达抽象成目标文本在通用词库对应的张量空间中所构成的张量,进一步,将该张量表达成在目标专业领域基矢下的投影分量,相对于现有技术而言,知识库的组织更加准确。
本发明实施例的技术方案,创造地考虑了目标专业领域下的专业语言场景对目标文本的原始意思表达的影响,构建了特定专业领域对应的N维向量作为基矢。将目标文本中所包括的各个单词的信息熵值在张量空间内的张量,和此基矢进行计算,得到目标文本在目标专业领域内的投影分量,相对于现有技术而言,知识库的组织更加准确。
本发明实施例在张量空间、张量、向量空间、投影分量中,都引入信息熵,使得后续计算是多重线性变化的。具体地,如果要对知识库按照各目标文本的精确意思来组织,就必须考虑除目标文本的词信息熵、词频和逆文本频率以外的语言场景、应用领域、文本整体等多重宏观影响因素,而不是仅基于文本的词信息熵、词频和逆文本频率等因素,相对于现有技术而言,知识库的组织更加准确。
图5为本发明实施例的知识库的组织装置的结构组成示意图,如图5所述,所述装置包括:
张量空间构建单元501,用于构建通用词库对应的张量空间;
张量确定单元502,用于基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;
基矢确定单元503,用于基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;
投影分量计算单元504,用于基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;
组织单元505,用于基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
在一实施方式中,如图6所示,所述张量空间构建单元包括:
建立子单元601,用于建立基础词库;
第一获取子单元602,用于获取通用词库对应的语料库;
第一分词处理单元603,用于基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
第一信息熵值计算单元604,用于计算所述原始通用词库中的各个单词的第一信息熵值;
选择子单元605,用于从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
构建子单元606,用于以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
在本发明一实施方式中,如图7所示,所述张量确定单元包括:
第二分词处理单元701,用于针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合;
结果值计算子单元702,用于确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数;计算所述各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值;
第一赋值处理子单元703,用于基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
在本发明一实施方式中,如图8所示,所述基矢确定单元包括:
建立子单元801,用于建立基础词库;
第二获取子单元802,用于获取目标专业领域词库对应的目标语料库;
第三分词处理单元803,用于基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始目标专业领域词库;
第二信息熵值计算单元804,用于计算所述原始目标专业领域词库中的各个单词的第二信息熵值;
第二赋值处理子单元805,用于基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
在本发明一实施方式中,所述投影分量计算单元,具体用于:针对所述各目标文件,将所述目标文本的张量在所述基矢中进行投影,得到N个投影分量,其中,所述N个投影分量形成N维向量。
在本发明一实施方式中,如图9所示,所述组织单元包括:
正则化子单元901,用于对所述各目标文本的投影分量进行正则化处理;
角度计算子单元902,用于基于投影分量的正则化结果,计算所述投影分量相对于基矢的角度值;
聚类子单元903,用于对所述投影分量相对于基矢的角度值进行聚类处理,以确定各目标文本之间的关系从而组织知识库。
本领域技术人员应当理解,上述知识库的组织装置中的各单元及其子单元的实现功能可参照前述知识库的组织方法的相关描述而理解。上述知识库的组织装置中的各单元及其子单元的实现功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例上述音像处理装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本发明实施例还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明实施例的上述知识库的组织方法。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (13)
1.一种知识库的组织方法,其特征在于,所述方法包括:
构建通用词库对应的张量空间;其中,所述通用词库是指:第一信息熵值大于等于预设信息熵阈值的单词集合所形成的词库;
基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;其中,以对所述各目标文本进行分词处理得到的各个单词的结果值对所述张量空间进行赋值,形成所述目标文本的张量;
基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;
基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;
基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
2.根据权利要求1所述的知识库的组织方法,其特征在于,所述构建通用词库对应的张量空间,包括:
建立基础词库,以及获取通用词库对应的语料库;
基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
计算所述原始通用词库中的各个单词的第一信息熵值;
从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
3.根据权利要求2所述的知识库的组织方法,其特征在于,所述基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量,包括:
针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合;
确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数;计算所述第三单词集合中的各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值;
基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
4.根据权利要求1所述的知识库的组织方法,其特征在于,所述基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢,包括:
建立基础词库,以及获取目标专业领域词库对应的目标语料库;
基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始目标专业领域词库;
计算所述原始目标专业领域词库中的各个单词的第二信息熵值;
基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
5.根据权利要求1所述的知识库的组织方法,其特征在于,所述基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量,包括:
针对所述各目标文件,将所述目标文本的张量在所述基矢中进行投影,得到N个投影分量,其中,所述N个投影分量形成N维向量。
6.根据权利要求1至5任一项所述的知识库的组织方法,其特征在于,所述基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库,包括:
对所述各目标文本的投影分量进行正则化处理;
基于投影分量的正则化结果,计算所述投影分量相对于基矢的角度值;
对所述投影分量相对于基矢的角度值进行聚类处理,以确定各目标文本之间的关系从而组织知识库。
7.一种知识库的组织装置,其特征在于,所述装置包括:
张量空间构建单元,用于构建通用词库对应的张量空间;其中,所述通用词库是指:第一信息熵值大于等于预设信息熵阈值的单词集合所形成的词库;
张量确定单元,用于基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;其中,以对所述各目标文本进行分词处理得到的各个单词的结果值对所述张量空间进行赋值,形成所述目标文本的张量;
基矢确定单元,用于基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;
投影分量计算单元,用于基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;
组织单元,用于基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
8.根据权利要求7所述的知识库的组织装置,其特征在于,所述张量空间构建单元包括:
建立子单元,用于建立基础词库;
第一获取子单元,用于获取通用词库对应的语料库;
第一分词处理单元,用于基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
第一信息熵值计算单元,用于计算所述原始通用词库中的各个单词的第一信息熵值;
选择子单元,用于从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
构建子单元,用于以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
9.根据权利要求8所述的知识库的组织装置,其特征在于,所述张量确定单元包括:
第二分词处理单元,用于针对各目标文本,对所述目标文本进行分词处理,得到第三单词集合;
结果值计算子单元,用于确定所述第三单词集合中的各个单词的第一信息熵值和各个单词在所述目标文本中的出现次数;计算所述第三单词集合中的各个单词的第一信息熵值与出现次数之积,得到各个单词的结果值;
第一赋值处理子单元,用于基于所述各个单词的结果值在所述张量空间中进行赋值,得到所述目标文本的张量。
10.根据权利要求7所述的知识库的组织装置,其特征在于,所述基矢确定单元包括:
建立子单元,用于建立基础词库;
第二获取子单元,用于获取目标专业领域词库对应的目标语料库;
第三分词处理单元,用于基于所述基础词库,对所述目标语料库进行分词处理,得到第四单词集合,其中,所述第四单词集合形成原始目标专业领域词库;
第二信息熵值计算单元,用于计算所述原始目标专业领域词库中的各个单词的第二信息熵值;
第二赋值处理子单元,用于基于所述各个单词的第二信息熵值在所述张量空间中进行赋值,得到所述目标专业领域词库对应的基矢。
11.根据权利要求7所述的知识库的组织装置,其特征在于,所述投影分量计算单元,具体用于:针对所述各目标文件,将所述目标文本的张量在所述基矢中进行投影,得到N个投影分量,其中,所述N个投影分量形成N维向量。
12.根据权利要求7所述的知识库的组织装置,其特征在于,所述组织单元包括:
正则化子单元,用于对所述各目标文本的投影分量进行正则化处理;
角度计算子单元,用于基于投影分量的正则化结果,计算所述投影分量相对于基矢的角度值;
聚类子单元,用于对所述投影分量相对于基矢的角度值进行聚类处理,以确定各目标文本之间的关系从而组织知识库。
13.一种计算机存储介质,其特征在于,其上存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911400.1A CN107622129B (zh) | 2017-09-29 | 2017-09-29 | 一种知识库的组织方法及装置、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911400.1A CN107622129B (zh) | 2017-09-29 | 2017-09-29 | 一种知识库的组织方法及装置、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622129A CN107622129A (zh) | 2018-01-23 |
CN107622129B true CN107622129B (zh) | 2020-03-24 |
Family
ID=61091108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710911400.1A Active CN107622129B (zh) | 2017-09-29 | 2017-09-29 | 一种知识库的组织方法及装置、计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622129B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765975B (zh) * | 2020-12-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 分词岐义处理方法、装置、设备以及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228245A (zh) * | 2016-07-21 | 2016-12-14 | 电子科技大学 | 基于变分推断和张量神经网络的知识库补全方法 |
CN106528610A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种基于路径张量分解的知识图谱表示学习方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8732627B2 (en) * | 2012-06-18 | 2014-05-20 | International Business Machines Corporation | Method and apparatus for hierarchical wafer quality predictive modeling |
-
2017
- 2017-09-29 CN CN201710911400.1A patent/CN107622129B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228245A (zh) * | 2016-07-21 | 2016-12-14 | 电子科技大学 | 基于变分推断和张量神经网络的知识库补全方法 |
CN106528610A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种基于路径张量分解的知识图谱表示学习方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107622129A (zh) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361243B2 (en) | Recommending machine learning techniques, features, and feature relevance scores | |
CN108304378B (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
CN102272754B (zh) | 定制语言模型 | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
JP5817531B2 (ja) | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム | |
JP5379138B2 (ja) | 領域辞書の作成 | |
CN111626048A (zh) | 文本纠错方法、装置、设备及存储介质 | |
WO2017013667A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
CN110717038B (zh) | 对象分类方法及装置 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
JPWO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN107193806B (zh) | 一种词汇义原的自动预测方法及装置 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
CN114492669B (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
JP2024159517A (ja) | 情報処理方法および装置 | |
CN111274384B (zh) | 一种文本标注方法及其设备、计算机存储介质 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP7017533B2 (ja) | 分類装置、学習装置、分類方法及びプログラム | |
CN114936278A (zh) | 文本推荐方法、装置、计算机设备和存储介质 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |