CN109033084B

CN109033084B - 一种语义层次树构建方法以及装置

Info

Publication number: CN109033084B
Application number: CN201810836275.7A
Authority: CN
Inventors: 蔡世清; 郑凯; 段立新; 江建军; 夏虎
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2022-10-28
Anticipated expiration: 2038-07-26
Also published as: CN109033084A

Abstract

本申请提供了一种语义层次树构建方法和装置，其中，该方法包括：对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语；对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点；以及对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点；根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树。本申请实施例能够基于大规模数据集合快速构建语义层次树。

Description

一种语义层次树构建方法以及装置

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种语义层次树构建方法以及装置。

背景技术

在自然语言处理领域，现有的语言模型通常依赖于机器学习算法。机器学习的本质是预测；在通过大量的训练数据集对机器学习模型进行训练，得到自然语言处理模型后，就能过将待处理数据输入至训练好的自然语言处理模型，获得与待处理数据对应的预测结果。

大部分的自然语言处理模型在执行语言处理任务时，都需要从百万级别的词汇表或实体集合中预测概率最高的选项。例如机器翻译模型需要在每一个时间步上预测一个词语在待翻译目标语境下的含义；又如实体识别模型需要预测文本片段所指向的实体，即实体分类。由于是要从百万级别的词汇表或实体集合中预测概率最高的选项，因此自然语言处理模型所执行的语言处理任务在输出层需要做超大规模的矩阵运算，这会消耗极大的计算资源，并且对实时性要求很高的场景支持性不高。

为了解决上述问题，目前所采取的手段是将原来自然语言处理模型的隐藏层到输出层的映射从一步到位的矩阵运算，替换成沿着霍夫曼编码树分步执行，这样对每个词语的预测只需经历少量的二元逻辑回归，便能够到达从霍夫曼编码树的叶子节点，得到最终的预测结果。但是，霍夫曼编码树是基于词频得到的，无法表示词语之间的关系，两个很相近的词可能被分到完全不同的分支下。这导致在对词语的预测存在偏差的时候，会得到很离谱的结果。

若使用语义层次树替代霍夫曼编码树在自然语言处理模型中的作用，由于语义层次树在构建的时候需要计量数据两两之间的关系矩阵，对于大规模(如：百万级别)的数据集合而言，计算的复杂度无法满足实现要求。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语义层次树构建方法以及装置，能够基于大规模数据集合快速构建语义层次树。

第一方面，本申请实施例提供了一种语义层次树构建方法，包括：

对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语；

对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点；以及

对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点；

根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树。

可选地，对数据集进行分类，得到至少一个分组，具体包括：

根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，得到所述至少一个分组。

可选地，根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，得到所述至少一个分组，具体包括：

(i)以所述数据集中所有词语作为第一簇；

(ii)确定第一簇的簇心，所述簇心所对应的向量为第一簇中各词语对应的向量的平均值，以与所述第一簇的簇心相似度最近的词语为中心，确定与该中心在预设相似度范围内的词语，组成第二簇；

(iii)将所述第二簇作为第一簇，并返回步骤(ii)进行计算，直到满足迭代停止条件，将最后得到的第二簇作为聚类后的一个分组，并将第二簇中的词语作为完成聚类的词语；

(iv)以所述数据集中所有未完成聚类的词语作为第一簇，返回步骤(ii)进行计算，直到所述数据集中所有词语完成聚类，得到聚类后的多个分组。

可选地，根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，具体包括：

根据预设的分组数量K，从所述数据集中随机选择K个词语作为初始的聚类中心；

针对每个初始的聚类中心，执行以下步骤：

(i)将与该聚类中心之间的相似度小于第一预设相似度的词语和该聚类中心作为第一簇，计算第一簇的簇心，所述簇心所对应的向量为第一簇中各词语对应的向量的平均值；

(ii)以与所述第一簇的簇心相似度最近的词语为中心，确定与该中心在预设相似度范围内的词语，组成第二簇；

(iii)将所述第二簇作为新的第一簇，并返回步骤(i)执行计算，直到满足迭代停止条件，将最后得到的第二簇作为聚类后的一个分组。

(i)将所述数据集中当前未完成聚类的词语中任意一个词语作为聚类中心，并依次计算其它当前未完成聚类的词语与该聚类中心之间的相似度；

(ii)将其它当前未完成聚类的词语与该聚类中心之间的相似度按照从大到小的顺序，从其它当前未完成聚类的词语中，获取预设数量的词语划分到与所述聚类中心同一分组中，并将该分组中所有词语作为完成聚类的词语；

(iii)返回步骤(i)进行计算，直至所述数据集中所有的词语完成聚类。

(i)将所述数据集作为待拆分集合；(ii)从所述待拆分集合中随机选择2个词语作为初始的聚类中心；

(iii)分别计算所述待拆分集合中各个词语与所述两个初始的聚类中心之间的相似度，并将词语归到与其相似度较高的聚类中心所在分组中，拆分得到两个中间分组；

(iii)如果所述中间分组中包含的词语的数量大于预设词语数量阈值，则将所述中间分组作为新的待拆分集合，返回步骤(ii)执行计算，直至所述中间分组中包括的词语的数量不大于预设词语数量阈值，并将该包括的词语的数量不大于预设词语数量阈值的中间分组作为聚类后的一个分组。

可选地，所述迭代停止条件包括下述中一种或多种：第二簇中的词语不再发生变化、第二簇中的词语数量不大于预设词语数量阈值、迭代次数达到预设次数阈值。

可选地，所述对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，具体包括：

针对每一个分组，计算该分组中所有词语对应的向量的平均值，得到该分组对应的平均向量；

根据各个分组对应的平均向量，对各个分组进行组间层次聚类。

可选地，所述根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树，具体包括：

将所述第一层次聚类子树的根节点，作为所述语义层次树的根节点，将所述第二层次聚类子树的根节点，作为所述第二层次聚类子树的叶子节点，对所述第一层次聚类子树和所述第二层次聚类子树进行连接，生成所述语义层次树。

第二方面，本申请实施例还提供一种语义层次树构建装置，包括：

分组模块，用于对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语；

组间层次聚类模块，用于对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点；

组内层次聚类模块，用于对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点；

语义层次聚类树构造模块，用于根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树。

本申请实施例通过对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语；对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点；以及对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点；根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树，能够加快构建层次聚类树的速度，减少构建层次聚类树所需要的计算量，降低了计算的复杂度，从而满足在大规模数据集的基础上快速构建语义层次树的要求。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语义层次树构建方法的流程图；

图2示出了本申请实施例所提供的语义层次树构建方法中，获得数据集的具体方法的流程图；

图3示出了本申请实施例所提供的语义层次树构建方法中，第一种对数据集中的词语进行聚类的具体方法的流程图；

图4示出了本申请实施例所提供的语义层次树构建方法中，第二种对数据集中的词语进行聚类的具体方法的流程图；

图5示出了本申请实施例所提供的语义层次树构建方法中，第三种对数据集中的词语进行聚类的具体方法的流程图；

图6示出了本申请实施例所提供的语义层次树构建方法中，第四种对数据集中的词语进行聚类的具体方法的流程图；

图7示出了本申请实施例所提供的示例中，第二层次聚类子树的结构示意图；

图8示出了本申请实施例所提供的示例中，第一层次聚类子树的结构示意图；

图9示出了本申请实施例所提供的示例中，层次聚类树的结构示意图；

图10示出了本申请实施例所提供的一种语义层次树构建装置的结构示意图；

图11示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前语义层次树在构造的时候，由于语义层次树在构建的时候需要计量数据两两之前的关系矩阵，对于大规模(如百万级别)的数据集合而言，计算的复杂度无法满足实现要求。基于此，本申请提供的一种语义层次树构建方法以及装置，可以在大规模数据集的基础上快速构建语义层次树。

与现有技术不同，本申请通过对数据集进行分类行程的至少一个分组进行组间层次聚类，和组内层次聚类，并根据组间层次聚类得到的第一层次聚类子树和第二层次聚类子树构造语义层次树。使用这种语义层次树替换霍夫曼编码树在自然语言处理模型中的作用，这样即使预测词语有偏差，也会返回一个相似的选项，不会得到很离谱的结果。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种语义层次树构建方法进行详细介绍。

参见图1所示，本申请实施例提供的语义层次树构建方法包括：

S101：对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语。

在具体实现的时候，数据集是指包括了多个词语的数据集合。在对自然语言处理模型进行训练的过程中，为了保证自然语言处理模型的精度，就需要保证该数据集中词语的数量要尽量的多。

参见图2所示，本申请实施例提供一种该数据集的获得方式：

S201：从预设平台获取语料。

此处，可以通过爬虫、爬取工具等技术从预设平台爬取语料。在爬取语料的时候，可以不做任何限制的进行爬取，也即，只要是预设平台出现的语料，就可以作为爬取的语料。可选地，由于词汇的应用在不断的发生变化，其与其他词汇之间的相关度也会随着应用的变化而变化；例如“狗粮”一词，原本的含义仅仅是“喂狗的专用食品”，而现在可以被解释作“恩爱”。也可以对爬取的语料进行一定的限制，例如爬取的语料的生成时间进行限制。例如获取距离当前时刻3年以内的语料。

可选地，在获取语料的时候，为了能够更快的确定某一领域的领域关键词，还可以针对该预设平台中已经确定了领域的语料进行针对性的获取。这样可以快速获取与每个领域对应的领域关键词。

S202：采用预先训练得到的分词模型对语料进行分词处理，得到多个词语，并将所述词语构成的集合作为所述数据集。

例如，分词模型可以是基于字符串匹配的分词模型、基于统计的分词模型、基于神经网络的分词模型、基于N-最短路径分词模型中任意一种。

其中，基于字符串匹配的分词模型的分词原理为：按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功，也即识别出一个词。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

基于统计的分词模型的分词原理为：对语料中相邻共现的各个字的组合频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。

基于N-最短路径分词模型的分词原理为：根据词典，找出字串中所有可能的词，构造词语切分有向无环图。每个词对应图中的一条有向边，并赋给相应的边长(权值)。然后针对该切分图，在起点到终点的所有路径中，求出长度值按严格升序排列(任何两个不同位置上的值一定不等，下同)依次为第1，第2，…，第i，…，第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等，那么他们的长度并列第i，都要列入粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集合大小大于或等于N。

在获得数据集后，就要对数据集进行分类。为了能够在构建语义层次树时，将相似的或者同类词语分到语义层次树的同一个分支下，因此在对数据集进行分类的时候，一般是基于数据集中词语之间的相似度来进行的。

为了获取词语之间的相似度，可以将数据集中的词语映射到高维空间中，形成每个词语的向量。向量之间的距离能够用于表征对应词语之间的相似度。向量之间的距离越接近，则对应词语之间的相似度也就越高；向量之间的距离约远，则对应词语之间的相似度也就越低。

在本申请实施例中，可以采用word2vec算法获取数据集中每个词的向量。word2vec即为词向量映射，是将词语映射到一个新的空间中，通过在大量语料中进行计算统计，在神经网络中训练，以多维的连续实数向量进行表示每个词语，word2vec模型是一个大矩阵，存放有所有词语的表示向量。词语之间的相似度，可以通过求取词语对应的向量之间的距离来确定。向量之间的距离可以包括：欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离、相关距离、信息熵中一项或者多项。

对数据集进行分类，形成字少一个分两组，每个分组中的词语之间的相似度要满足一定的相似度要求。在本申请一实施例中，可以采用根据数据集中词语之间的相似度，对所述数据集中的词语进行聚类的方式，得到所述至少一个分组。在具体实现的时候，可以采用下述聚类方式中任意一种对数据集中的词语进行聚类：

其一：本申请实施例提供的第一种对数据集中的词语进行聚类的方法，参见图3所示，包括：

S301：以所述数据集中所有词语作为第一簇。

S302：确定第一簇的簇心，所述簇心所对应的向量为第一簇中各词语对应的向量的平均值，以与所述第一簇的簇心相似度最近的词语为中心，确定与该中心在预设相似度范围内的词语，组成第二簇；

S303：检测是否满足迭代停止条件；如果是，则执行S304。如果否，则将所述第二簇作为第一簇，并返回步骤S302进行计算。

S304：将最后得到的第二簇作为聚类后的一个分组，并将第二簇中的词语作为完成聚类的词语；执行S305。

S305：检测当前是否存在未完成聚类的词语；如果是，则以所述数据集中所有未完成聚类的词语作为第一簇，返回步骤S302进行计算，如果否，则结束。

在上述对数据集中的词语进行聚类的方法中，在首次聚类的时候，由于数据集中所有的词语都未完成聚类，因此首次聚类时，将所有词语作为第一簇，并计算第一簇的簇心对应的向量。在非首次聚类时，由于已经有部分词语完成了聚类，因此要去除之前在聚类过程中已经完成聚类的词语，仅仅针对当前剩余的未完成聚类的词语进行聚类，也即，将数据集中未完成聚类的词语作为第一簇，计算第一簇的簇心对应的向量。

此处，在计算第一簇的簇心对应的向量时，是求取第一簇中各词语对应的向量的平均值。此时，第一簇中各词语的向量的维度是相同的。假设第一簇中各词语的向量的维度为m*n,则簇心的向量的维度也为m*n，簇心的向量中每个元素，是所有第一簇中词语的向量中对应位置元素的平均值。

簇心的第i行第j列的元素可以表示为：B_i,j。假设第一簇中有k个词语，第一簇中第s个词语的第i行第j列的元素可以表示为A_i,j ^S，则B_i,j满足下述公式(1)：

在每个迭代周期内，在计算得到第一簇的簇心的向量后，为了得到与簇心相似度最近的词语，要依次计算第一簇中每个词语的向量与第一簇簇心的向量之间的距离，并将距离最小的向量对应的词语，作为与第一簇的簇心相似度最接近的词语，并从第一簇中剩余的词语中确定与该中心之间的相似度在预设相似度范围内的词语，组成第二簇，并将第二簇作为新的第一簇，再次执行计算第一簇的簇心向量的步骤，直至满足迭代停止条件。

在这里需要注意的是，为了加快每一个分类的收敛速度，在多次迭代过程中，每一次迭代过程中所使用的预设相似度范围均不相同，且随着迭代次数的增加，预设相似度范围的值也是逐渐减小的。

当满足迭代停止条件时，将最后一次迭代得到的第二簇作为聚类后的一个分类，并将该最后一次迭代得到的第二簇中的词语作为完成聚类的词语，然后再次对未完成聚类的词语进行上述迭代过程，直至所有的词语都完成聚类。

这里的迭代停止条件包括以下条件中的至少一种：1)第二簇中的词语不再发生变化；此时，要求在多次迭代过程中，预设相似度范围也具有阈值。2)迭代次数达到设定次数阈值。3)第二簇中的词语数量不大于预设词语数量阈值。

在条件1)中，第二簇中的词语不再发生变化，表明已经形成了最佳的簇，可以停止迭代。在条件2)中，为了节省运算量，可以设置迭代次数的最大值，如果迭代次数达到设定次数阈值，可以停止本迭代周期的迭代，将最后得到的第二簇中所包括的历史出车地点作为一类。在条件3)中，如果第二簇中的词语数量不大于预设词语数量阈值，那么在后续构造第二层次聚类子树的时候，使得计算量被限制在一定的范围内，能够满足当前对计算量的限制要求。

其二：本申请实施例提供的第二种对数据集中的词语进行聚类的方法，参见图4所示，包括：

针对每个初始的聚类中心，执行以下步骤：

S401：将与该聚类中心之间的相似度小于第一预设相似度的词语和该聚类中心作为第一簇，计算第一簇的簇心，所述簇心所对应的向量为第一簇中各词语对应的向量的平均值；

S402：以与所述第一簇的簇心相似度最近的词语为中心，确定与该中心在预设相似度范围内的词语，组成第二簇；

S403：将所述第二簇作为新的第一簇，并返回步骤S401执行计算，直到满足迭代停止条件，将最后得到的第二簇作为聚类后的一个分组。

在具体实现的时候，初始聚类中心的个数可以根据实际的需要进行具体的设定；具体地，为了限制在基于每个分组构建第层次聚类子树时所需要的计算量，需要将每个分组中词语的数量限制在一定范围内，那么数据集中所包括的词语的数量越多，K的值也越大。

例如，假若数据集中包括的词语数量为100万，并要求所形成的每个分组中词语的数量不大于10000，则可以将数据集中词语的数量与每个分组中最大词语数量的比值作为K的值，例如在该示例中，K取100。

另外，在该示例中，为了使得每个分组中的词语的数量空间留有余量，在设置K的值时，还可以将数据集中词语的数量与每个分组中最大词语数量的比值，以及该比值预设百分比的值的和确定为K。例如将将数据集中词语的数量与每个分组中最大词语数量的比值，以及该比值10％的值的和确定为K，也即，K＝100+100*10％，为110。

在确定K后，会从数据集的词汇中，选取K个作为初始聚类中心。然后针对每个初始聚类中心，依次计算除该初始聚类中心每个词汇和该初始聚类中心之间的相似度。

这里每个词汇和初始聚类中心之间的相似度与上述图3对应的实施例中，求取第一簇的簇心与词语之间相似度的方法类似，在此不再赘述。

例如，假若数据集中有100W个词语，并将K的值确定为110，从一百万个词语中确定的110个初始聚类中心分别为：X1-X110。针对X1，要依次计算100万个词语中除X1以外的999999个词语与X1之间的距离。若其中某个词语与X1之间的距离小于第一预设相似度，则将该词语与X1划分到同一个簇，也即第一簇中。然后将第一簇中所有词语的向量的平均值作为簇心。然后以距离该簇心最近的词语为中心，确定与该中心在预设相似度范围内的词语，组成第二簇，并将第二簇作为新的第一簇，并返回计算第一簇的簇心坐标的步骤，直到满足迭代停止条件，将最后得到的第二簇作为聚类后的一个类。

特殊地，假若某个被选择成为初始聚类中心的历词语在迭代过程中，被划分到某个类中，则不再基于该初始聚类中心进行上述迭代过程。可以重新从其余未完成聚类的词语中确定一个词语作为初始聚类中心，并针对新的聚类中心进行上述迭代过程；此时，最终得到的分类数量与K的数量相同。也可以在将初始距离中心北划分到某个分类中，仅仅针对其他的初始聚类中心进行上述迭代过程；此时，最终的到的分类数量少于K的数量。

在本实施例中，迭代停止条件与上述图3对应的实施例中的迭代停止条件类似，在此不再赘述。

其三：本申请实施例提供的第三种对数据集中的词语进行聚类的方法，参见图5所示，包括：

S501：将所述数据集中当前未完成聚类的词语中任意一个词语作为聚类中心，并依次计算其它当前未完成聚类的词语与该聚类中心之间的相似度；

S502：将其它当前未完成聚类的词语与该聚类中心之间的相似度按照从大到小的顺序，从其它当前未完成聚类的词语中，获取预设数量的词语划分到与所述聚类中心同一分组中，并将该分组中所有词语作为完成聚类的词语；

S503：检测当前是否存在未完成聚类的词语。如果是，则跳转至S501，如果否，则结束。

S503：返回步骤S501进行计算，直至所述数据集中所有的词语完成聚类。

在具体实现的时候，计算其他当前未完后才能聚类的词语与聚类中心之间相似度的方法，与上述图3对应的实施例中，求取第一簇的簇心与词语之间相似度的方法类似，在此不再赘述。

在该实施例中，对聚类结果进行约束的条件即为每个分类中词语的数量，要使得每个分类中所包括的词语的数量被限制在一定范围内，以减少组内层次聚类所需要的计算量。

该第三种聚类方法较之上述第一种和第二种聚类方法更加简单，计算效率高，但较之上述两种聚类方法的精度会有所下降。

此外，除了用每个分组中词语的数量来约束每个分组外，还可使用每个分组中词语之间的相似度来约束每个分组。

例如：上述S502还可以是：在将其它当前未完成聚类的词语与该聚类中心之间的相似度按照从大到小顺序，从当前未完成聚类的词语中，获取少于预设数量，且与中心之间的相似度小于预设相似度阈值的词语划分到与所述聚类中心同一分组中，并将该分组中所有词语作为完成聚类的词语。

其四：本申请实施例提供的第四种对数据集中的词语进行聚类的方法，参见图6所示，包括：

S601：将所述数据集作为待拆分集合；

S602：从所述待拆分集合中随机选择2个词语作为初始的聚类中心；

S603：分别计算所述待拆分集合中各个词语与所述两个初始的聚类中心之间的相似度，并将词语归到与其相似度较高的聚类中心所在分组中，拆分得到两个中间分组；

S604：检测中间分组中包含的词语的数量是否大于预设词语数量阈值，如果是，则将所述中间分组作为待拆分集合，返回步骤S602执行计算。如果否，则执行S605。

S605：将该包括的词语的数量不大于预设词语数量阈值的中间分组作为聚类后的一个分组。

在具体实现的时候，待拆分集合中各个词语与所述两个初始的聚类中心之间的相似度，与上述图3对应的实施例中，求取第一簇的簇心与词语之间相似度的方法类似，在此不再赘述。

该实施例基于待拆分集合中各个词语与两个处置的聚类中心之间的相似度，使用递归的方式，将数据集中的词语划分到多个分类中，使得每个分类中的词语之间的相似度都是比较接近的，且每个分组中词语的数量不大于预设词语数量阈值，减少组内层次聚类时所需要的计算量。

在将数据集中进行分类，形成多个分组后，要针对每个分组进行组内层次聚类，以及针对所有分组进行组件层次聚类。

在具体实现的时候，组内层次聚类和组间层次聚类不分先后顺序。

S102：对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点。

在具体实现的时候，在对S101中所形成的分组进行组间层次聚类时，是将每一个分组中的词语看作是一个整体，进行层次聚类，生成第一层次聚类子树。

此处，可以通过获取计算每个分组中所有词语对应的向量的平均值，得到与每个分组对应的而平均向量，并通过该平均向量来表征对应的分组。然后在对各个分组进行组间层次聚类时，就能够基于每个分组对应的平均向量来进行。

在对各分组进行组间层次聚类时，可以采用下述方法：

将每个分组作为一个簇，并计算每两个簇之间的相似度。

按照相似度从大到小的顺序，确定多个簇对；每个簇对中包括两个簇，且不同簇对中，所包括的簇不同。

将属于同一簇对的两个簇合并在一起，构成新的簇，并针对新的簇，执行上述计算两个簇之间相似度的过程，直至所有的分组对应的簇都被合并在一起。

其中，每个分组都是所形成的第一层次聚类子树的叶子节点；第一层次聚类子树的根节点包括所有的组。每一个簇对都构成叶子节点和根节点之间的节点。

这里需要注意的是，当将属于同一簇对的两个簇合并在一起，构成新的簇后，要根据合并在一起的簇对中两个簇分别对应的平均向量，求取两个簇的平均向量，将该两个簇的平均向量用于表征将两个簇合并在一起所形成的新的簇。

S103：对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点。

在具体实现的时候，对每个分组进行组内层次聚类，是要针对每个分组中所包括的词语进行层次聚类，在该分组中每个词语是一个单独个体。

在对各分组进行组内层次聚类时，可以采用下述方法：将每个词语作为一个簇，并计算每两个簇之间的相似度。按照相似度从大到小的顺序，确定多个簇对；每个簇对中包括两个簇，且不同簇对中，所包括的簇不同。将属于同一簇对的两个簇合并在一起，构成新的簇，并针对新的簇，执行上述计算两个簇之间相似度的过程，直至所有的分组对应的簇都被合并在一起。

其中，每个词语都是所形成的第二层次聚类子树的叶子节点；第二层次聚类子树的根节点包括所有对应分组中所有的词语。每一个簇对都构成叶子节点和根节点之间的节点。

这里需要注意的是，当将属于同一簇对的两个簇合并在一起，构成新的簇后，要根据合并在一起的簇对中两个簇分别对应的向量的平均数，作为该新的簇的向量，将该新的簇的向量用于表征将两个簇合并在一起所形成的新的簇。

S104：根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树。

在具体实现的时候，由于第一层次聚类子树和第二层次聚类子树均为要构造的语义层次树的一部分。且第一层次聚类子树的层次高于第二层次聚类子树的层次。

由于第一层次聚类子树的叶子节点是各个分组，也即第一层次聚类子树的各个叶子节点中包括了对应分组的所有词语，而第二层次聚类子树的根节点包括了对应分组中所有词语，因此，可以从这里将第一层次聚类子树和第二层次聚类子树进行连接，也即：将所述第一层次聚类子树的根节点，作为所述语义层次树的根节点，将所述第二层次聚类子树的根节点，作为所述第二层次聚类子树的叶子节点，对所述第一层次聚类子树和所述第二层次聚类子树进行连接，生成所述语义层次树。

例如，本申请实施例还提供一个示例，对上述过程加以说明，需要注意的是，本实施例所使用到的数据集的量级仅仅为了说明的更清楚，不代表实际执行过程中数据集的量级。

数据集中包括100个词语，在按照词语之间的相似度对数据集进行分类，得到A～J共10个分类，且这10个分类中包括的词语分别为：A1～A10、B1～B10、C1～C10、……J1～J10。

在对分类A进行组内层次聚类时，得到第二层次聚类子树如图7所示。在对A～J进行组间层次聚类时，得到的第一层次聚类子树如图8所示，则将第一层次聚类子树和第二层次聚类子树连接在一起，所构成的层次聚类树如图9所示。

在本申请实施例中，若使用传统的方式构建该层次聚类树，假设在词汇集中包括了f个词语，要对这f个词语中的每两个分别计算一次相似度，则计算量为：

而通过本申请实施例提供的方法构造语义层次树时，假设分组有100，每个分组中的词语数量为

则计算量满足：

可以看到，当f到达一定量级后，会大大减少相似度匹配的次数，从而能够加快构建层次聚类树的速度，减少构建层次聚类树所需要的计算量，降低了计算的复杂度，从而满足在百万级数据集的基础上快速构建语义层次树的要求。

本申请实施例通过对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语；对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点；以及对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点；根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树，能够加快构建层次聚类树的速度，减少构建层次聚类树所需要的计算量，降低了计算的复杂度，从而满足在百万级数据集的基础上快速构建语义层次树的要求。

基于同一发明构思，本申请实施例中还提供了与语义层次树构建方法对应的语义层次树构建装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语义层次树构建方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图10所示，本申请实施例提供的语义层次树构建装置，具体包括：

分组模块10，用于对数据集进行分类，得到至少一个分组，所述至少一个分组的每个包含至少一个词语；

组间层次聚类模块20，用于对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，其中，每个分组均为所述第一层次聚类子树的叶子节点；

组内层次聚类模块30，用于对每个分组进行组内层次聚类，得到与每个分组对应的第二层次聚类子树，其中，每个分组中所包括的词语均为与该分组对应的第二层次聚类子树的叶子节点；

语义层次聚类树构造模块40，用于根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树。

可选地，分组模块10，具体用于通过下述步骤对数据集进行分类，得到至少一个分组：

可选地，分组模块10具体用于通过下述步骤根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，得到所述至少一个分组：

(i)以所述数据集中所有词语作为第一簇；

可选地，分组模块10，具体用于通过下述步骤根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，得到所述至少一个分组：根据预设的分组数量K，从所述数据集中随机选择K个词语作为初始的聚类中心；

针对每个初始的聚类中心，执行以下步骤：

可选地，分组模块10，具体用于通过下述步骤根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，得到所述至少一个分组：

根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，具体包括：

可选地，组间层次聚类模块20，具体用于通过下述步骤对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树：

可选地，语义层次聚类树构造模块40，具体用于通过下述步骤根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树：

本实施例中，分组模块10、组间层次聚类模块20、组内层次聚类模块30和语义层次聚类树构造模块40的具体功能和交互方式，可参见图1-图8对应的实施例的记载，在此不再赘述。

对于图1中的语义层次树构建方法，本申请实施例还提供一种计算机设备，如图11所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述语义层次树构建方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述语义层次树构建方法，从而解决语义层次树在构建的时候需要计量数据两两之间的关系矩阵，对于百万级别的数据集合而言，计算的复杂度无法满足实现要求的问题，进而达到加快构建层次聚类树的速度，减少构建层次聚类树所需要的计算量，降低了计算的复杂度，从而满足在百万级数据集的基础上快速构建语义层次树要求的效果。

对应于图1中的语义层次树构建方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述语义层次树构建方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述语义层次树构建方法，从而解决语义层次树在构建的时候需要计量数据两两之间的关系矩阵，对于百万级别的数据集合而言，计算的复杂度无法满足实现要求的问题，进而达到加快构建层次聚类树的速度，减少构建层次聚类树所需要的计算量，降低了计算的复杂度，从而满足在百万级数据集的基础上快速构建语义层次树要求的效果。

本申请实施例所提供的语义层次树构建方法以及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语义层次树构建方法，其特征在于，包括：

根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树；

其中，对数据集进行分类，得到至少一个分组，具体包括：

(i)以所述数据集中所有词语作为第一簇；

2.根据权利要求1所述的方法，其特征在于，根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，具体包括：

针对每个初始的聚类中心，执行以下步骤：

3.根据权利要求1所述的方法，其特征在于，根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，具体包括：

4.根据权利要求1所述的方法，其特征在于，根据所述数据集中词语之间的相似度，对所述数据集中的词语进行聚类，具体包括：

5.根据权利要求1或2所述的方法，其特征在于，所述迭代停止条件包括下述中一种或多种：第二簇中的词语不再发生变化、第二簇中的词语数量不大于预设词语数量阈值、迭代次数达到预设次数阈值。

6.根据权利要求1所述的方法，其特征在于，所述对所述至少一个分组进行组间层次聚类，得到第一层次聚类子树，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树，具体包括：

8.一种语义层次树构建装置，其特征在于，包括：

语义层次聚类树构造模块，用于根据所述第一层次聚类子树和所述第二层次聚类子树，构造所述语义层次树；

其中，所述分组模块用于对数据集进行分类，得到至少一个分组时，具体用于：

(i)以所述数据集中所有词语作为第一簇；