CN105096933B

CN105096933B - 分词词典的生成方法和装置及语音合成方法和装置

Info

Publication number: CN105096933B
Application number: CN201510289231.3A
Authority: CN
Inventors: 李秀林; 肖朔; 白洁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2017-06-20
Anticipated expiration: 2035-05-29
Also published as: CN105096933A

Abstract

本发明提出一种分词词典的生成方法和装置及语音合成方法和装置，该分词词典的生成方法包括对收集的预设范围内的文本进行划分，得到组成所述文本的句子；对所述句子进行划分，得到不同长度的字符串；根据所述不同长度的字符串，确定不同长度的字符串内的可信词条；根据所述可信词条建立分词词典。该方法能够获取与相应领域适合的分词词典，进而可以提高分词效果，提高语音合成效果。

Description

分词词典的生成方法和装置及语音合成方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种分词词典的生成方法和装置及语音合成方法和装置。

背景技术

语音合成，又称文语转换(Text to Speech)，能将文字信息实时转化为语音朗读出来，相当于给机器装上了人工嘴巴。对于语音合成系统，首先需要对输入的文本进行处理，其中包括分词处理。

目前，分词算法主要有两类，一种是基于词典匹配的算法，另一种是基于机器学习的方法。基于词典匹配的算法中，采用的分词词典通常是根据专家知识(如电子词典，新华字典等)建立词典的词条。但是这种根据专家知识建立的分词词典的语料不够均衡，特别是缺乏对不常见的词语的统计，不常见的词语如人名，地名，专属名等。基于机器学习的方法需要对大量的文本进行分词标注，从中抽取特征和所属类别训练模型，使用时对输入文本进行特征抽取后，利用模型判断边界类型，从而实现分词的目的。但是，机器学习方式需要大量的标注数据，不论是工作量成本还是时间成本都较大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种分词词典的生成方法，该方法可以获取与相应领域适合的分词词典，进而可以提高分词效果，提高语音合成效果。

本发明的另一个目的在于提出一种语音合成方法，该方法可以在语音合成时选择合适的分词词典，从而提高语音合成效果。

本发明的另一个目的在于提出一种分词词典的生成装置。

本发明的另一个目的在于提出一种语音合成装置。

为达到上述目的，本发明第一方面实施例提出的分词词典的生成方法，包括：对收集的预设范围内的文本进行划分，得到组成所述文本的句子；对所述句子进行划分，得到不同长度的字符串；根据所述不同长度的字符串，确定不同长度的字符串内的可信词条；根据所述可信词条建立分词词典。

本发明第一方面实施例提出的分词词典的生成方法，通过基于预设范围内收集的文本生成分词词典，可以考虑预设范围内的整体情况，根据范围不同生成不同的分词词典，避免仅根据专家知识造成的一些词难以统计的问题，获取与相应领域适合的分词词典，进而可以提高分词效果，提高语音合成效果。

为达到上述目的，本发明第二方面实施例提出的语音合成方法，包括：对输入文本进行文本处理，所述文本处理包括：分词处理，所述分词处理包括选择与所述输入文本对应的分词词典，所述分词词典是预先对与所述输入文本对应领域的文本进行训练后得到的；对文本处理后的输入文本进行后续处理，得到合成语音。

本发明第二方面实施例提出的语音合成方法，通过采用与输入文本对应的分词词典进行分词，可以改善分词效果，从而提升语音合成质量，改善用户体验。

为达到上述目的，本发明第三方面实施例提出的分词词典的生成装置，包括：第一划分模块，用于对收集的预设范围内的文本进行划分，得到组成所述文本的句子；第二划分模块，用于对所述句子进行划分，得到不同长度的字符串；确定模块，用于根据所述不同长度的字符串，确定不同长度的字符串内的可信词条；建立模块，用于根据所述可信词条建立分词词典。

本发明第三方面实施例提出的分词词典的生成装置，通过基于预设范围内收集的文本生成分词词典，可以考虑预设范围内的整体情况，根据范围不同生成不同的分词词典，避免仅根据专家知识造成的一些词难以统计的问题，获取与相应领域适合的分词词典，进而可以提高分词效果，提高语音合成效果。

为达到上述目的，本发明第四方面实施例提出的语音合成装置，包括：第一处理模块，用于对输入文本进行文本处理，所述文本处理包括：分词处理，所述分词处理包括选择与所述输入文本对应的分词词典，所述分词词典是预先对与所述输入文本对应领域的文本进行训练后得到的；第二处理模块，用于对文本处理后的输入文本进行后续处理，得到合成语音。

本发明第四方面实施例提出的语音合成装置，通过采用与输入文本对应的分词词典进行分词，可以改善分词效果，从而提升语音合成质量，改善用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的分词词典的生成方法的流程示意图；

图2是本发明另一实施例提出的分词词典的生成方法的流程示意图；

图3是本发明另一实施例提出的语音合成方法的流程示意图；

图4是本发明另一实施例提出的语音合成方法的流程示意图；

图5是本发明实施例中分词处理的流程示意图；

图6是本发明实施例中获取领域词典的示意图；

图7是本发明另一实施例提出的分词词典的生成装置的结构示意图；

图8是本发明另一实施例提出的语音合成装置的结构示意图；

图9是本发明另一实施例提出的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的分词词典的生成方法的流程示意图，该方法包括：

S11：对收集的预设范围内的文本进行划分，得到组成所述文本的句子。

现有技术中，分词词典是根据已有的专家知识得到的。

而本实施例中，分词词典是对收集的样本进行训练后得到的，从而避免已有的专家知识缺乏不常见词条的问题。

本实施例中，收集的样本是预设范围内的文本，预设范围可以包括：通用范围，或者，领域范围。通用范围不限定领域，例如，收集小说，新闻，体育等领域的文本，领域范围是限定一个特定领域，例如，当领域范围是小说领域时，仅收集小说领域的文本。相应的，对应通用范围生成的词典可以称为通用词典，对应领域范围生成的词典可以称为领域词典。

在收集到文本后，可以对每个文本进行划分，得到每个文本内的句子。

可选的，所述对收集的预设范围内的文本进行划分，得到组成所述文本的句子，包括：

根据所述文本内的特殊字符对所述文本进行划分，得到组成所述文本的句子，所述特殊字符包括：标点符号。

例如，将文本内每个标点符号隔开的部分作为一个句子。

例如，一个文本中有如下内容：“语音合成，相当于给机器装上了人工嘴巴”，则该内容可以包括两个句子：“语音合成”，以及“相当于给机器装上了人工嘴巴”。

S12：对所述句子进行划分，得到不同长度的字符串。

在得到每个句子后，可以将每个句子划分为不同长度的字符串。

可选的，所述对所述句子进行划分，得到不同长度的字符串，包括：

将所述句子划分为长度分别是n0，n0+L，n0+2L，…，N的字符串，其中，n0、L和N是预设值，分别是字符串的最小长度、移动窗的长度和字符串的最大长度。

例如，设置n0＝1，L＝1时，对应“相当于给机器装上了人工嘴巴”这个句子，可以得到如下的字符串：

长度为1的字符串：相当于给机器装上了人工嘴巴

长度为2的字符串：相当当于于给给机机器器装装上上了了人人工工嘴嘴巴

长度为3的字符串：相当于当于给于给机给机器机器装器装上装上了上了人了人工人工嘴工嘴巴

依此类推，还可以得到长度为4，5，…，直至最大长度的字符串，最大长度例如为5～7中的一个值。

上述的各字符串之间用空格区分。

另外，由于字符串是对每个句子进行划分后得到的，每个文本内可以包括多个句子，并且收集的文本也通常是多个，因此，可以统计多个句子(同一个文本的其他句子或者其他文本的句子)的字符串。

例如，参见图2，以n0＝1，L＝1为例，可以对相关文本(收集的训练样本)中不同句子的不同长度的字符串进行统计(S21)。

S13：根据所述不同长度的字符串，确定不同长度的字符串内的可信词条。

可选的，所述根据所述不同长度的字符串，确定不同长度的字符串内的可信词条，包括：

对应第一长度的第一字符串，统计所述第一字符串在整个数据集内的出现次数，以及，计算如下的概率值：

其中，F_x是当前计算的一个第二字符串的出现次数，M是第二字符串的总数，是第二字符串的出现次数之和，第二字符串是第二长度的字符串中包含所述第一字符串的字符串，所述第二长度是与所述第一长度相邻的下一长度；

如果所述出现次数大于第一预设值，且，P_x的最大值小于第二预设值，则确认所述第一字符串是所述第一长度的字符串内的可信词条。

其中，第一长度是当前处理的长度，当前处理的长度从n0开始，直至N-L长度。第一字符串是第一长度的字符串中当前被处理的一个字符串。

例如，第一长度是2时，并假设第一字符串是“机器”时，可以从得到的长度为3的字符串中先确定包含“机器”的字符串，如“给机器”，“机器装”等，可以理解的是，上述划分得到的字符串是针对一个文本的一个句子的，在统计时，如果该文本的其他句子或者其他文本的句子被划分后得到的长度为3的字符串中，也存在包含“机器”的字符串，则这些字符串也需要被统计。在得到包含“机器”的字符串(也就是第二字符串)后，对应每个第二字符串计算相应的概率值P_x，例如，分别计算“给机器”，“机器装”等字符串的概率值。另外，通过对所有字符串进行统计，可以得到“机器”在整个数据集内的出现次数，如果出现次数大于第一预设值(如50次)，且这些概率值中的最大值小于第二预设值，则确定“机器”是可信词条。

例如，参见图2，在对字符串进行统计后，可以得到不同长度的词(字符串)及对应的出现次数(S22)。之后可以计算n字词在n+1字词概率(S23)，也就是计算上述的概率值P_x。在计算出概率值后，可以确定出可信词条(S24)。

S14：根据所述可信词条建立分词词典。

在得到可信词条后，可以将可信词条作为分词词典的词条进行记录。

另外，在用分词词典进行分词时，为了提高准确度，还可以记录每个词条的词频信息，因此，本实施例中还可以获取每个可信词条的词频信息。例如，参见图2，在确定出可信词条后，得到分词词典及词频信息(S25)。

可选的，所述根据所述可信词条建立分词词典，包括：

获取所述可信词条的词频信息；

根据所述可信词条及对应的词频信息，组成分词词典。

其中，词频信息具体可以是每个可信词条的词频或者归一化词频，词频是可信词条在整个数据集内的出现次数。归一化算法可以配置，例如，用可信词条的词频(即出现次数)之和归一化，也就是在得到可信词条和对应出现次数之后，在计算一个可信词条的归一化词频时，用该可信词条的出现次数除以所有可信词条的出现次数之和。

本实施例中，通过基于预设范围内收集的文本生成分词词典，可以考虑预设范围内的整体情况，根据范围不同生成不同的分词词典，避免仅根据专家知识造成的一些词难以统计的问题，获取与相应领域适合的分词词典，进而可以提高分词效果，提高语音合成效果。具体的，常规的基于分词词典的方法，高度依赖分词词典的词条及词频数据，而词典往往需要大量人力物力，来不断完善补充，词频信息也往往需要依赖分词系统进行初步分词之后统计海量数据的词频，因此其数据的准确性，过分依赖分词结果。常规的基于机器学习的统计方法，需要覆盖全面的海量标注数据，标注数据的获得非常困难，如果通过人工标注，投入巨大，时间很长，自动的结果也没有很好的可靠性。此外，不同领域的词频分布，差异很大，一个通用的分词词典或者统计模型，对于不同领域，很难达到同时最优的结果。针对这些问题，本实施例提出了一种不依赖分词系统的词典自动生成方法，可以快速自动实现词典的生成和词频统计，大大改善未登录词识别的效果，这种方法既可以用来生成领域词典，也可以生成通用词典。

图3是本发明另一实施例提出的语音合成方法的流程示意图，该方法包括：

S31：对输入文本进行文本处理，所述文本处理包括：分词处理，所述分词处理包括选择与所述输入文本对应的分词词典，所述分词词典是预先对与所述输入文本对应范围的文本进行训练后得到的。

参见图4，在语音合成时，通常会包括：文本处理(S41)，韵律预测(S42)，声学参数生成(S43)，语音生成(S44)等流程，得到合成语音。

文本处理又可以细分为文本预处理(S411)，分词(S412)，词性标注(S413)，注音(S414)等流程。文本预处理，是将输入文本中的数字、符号等进行转换，分词是将连续的字符分割成词，词性标注是为每个词生成词性信息，注音是为每个字符生成发音序列。

现有技术中如果采用基于词典的分词算法，则在分词时采用的分词词典是基于专家知识建立的，而如上所述，基于专家知识建立的分词词典存在种种问题。

而本实施例中，分词时采用的分词词典是采用如上实施例所示的方法建立的。

可选的，在语音合成时，如图4所示，可以为分词提供通用词典和领域词典，并且在输入时，不仅获取要转换为语音的输入文本，还包括输入文本对应的领域信息，之后，可以根据领域信息采用相应的领域词典。例如，输入的领域信息是小说时，则选择小说领域的领域词典。当然，可以理解的是，在输入时也可以选择通用范围，从而选择通用词典。

本实施例中，具体的分词流程可以参见图5，其中，与现有技术不同的是，本实施例可以根据输入的领域信息进行词典选择(S51)，例如，选择通用词典，第一种领域词典(领域词典_1)，或者，第二种领域词典(领域词典_2)等，而现有技术中采用固定的一个词典。在选择分词词典后，可以进行其他通用的分词中的流程，例如，词典词频归一化(S52)，基于词典的分词(S53)，基于统计模型的优化(S54)，从而得到分词结果。

S32：对文本处理后的输入文本进行后续处理，得到合成语音。

如图4所示，后续处理例如包括：韵律预测，声学参数生成，语音生成等，这些流程可以采用通常采用的方式处理。

另外，如图4和图5所示，以提供通用词典和多种领域词典为例。可选的，还可以仅提供与输入文本对应的领域词典，而不提供其他词典。

领域词典的分发，可以与阅读内容一起分发，也可以通过领域词典的专属id来指定，在云端合成或者本地合成。

例如，参见图6，以离线小说阅读为例，客户端在小说下载(S61)时，可以从云端获取小说文本数据和领域词典数据，之后，可以根据领域词典数据对小说文本数据进行小说语音合成(S62)。其中，客户端可以向云端发送小说文本标识信息，以获取小说文本数据，另外，客户端还可以发送领域标识，如小说，从而获取小说的领域词典数据。

本实施例中，通过采用与输入文本对应的分词词典进行分词，可以改善分词效果，从而提升语音合成指令，改善用户体验。以小说阅读为例，可以利用领域文本，自动抽取出人名、地名、专名等词条生成领域词典，通过分发领域词典或者在云端配置领域词典，降低分词错误率，提升用户体验。

图7是本发明另一实施例提出的分词词典的生成装置的结构示意图，该装置70包括：

第一划分模块71，用于对收集的预设范围内的文本进行划分，得到组成所述文本的句子；

现有技术中，分词词典是根据已有的专家知识得到的。

可选的，所述第一划分模块71具体用于：

例如，将文本内每个标点符号隔开的部分作为一个句子。

第二划分模块72，用于对所述句子进行划分，得到不同长度的字符串；

可选的，所述第二划分模块72具体用于：

长度为1的字符串：相当于给机器装上了人工嘴巴

上述的各字符串之间用空格区分。

确定模块73，用于根据所述不同长度的字符串，确定不同长度的字符串内的可信词条；

可选的，所述确定模块73具体用于：

如果所述出现次数大于第一预设值，且，P_x的最大值小于第二预设值，则确定所述第一字符串是所述第一长度的字符串内的可信词条。

例如，第一长度是2时，并假设第一字符串是“机器”时，可以从得到的长度为3的字符串中先确定包含“机器”的字符串，如“给机器”，“机器装”等，可以理解的是，上述划分得到的字符串是指针对一个文本的一个句子的，在统计时，如果该文本的其他句子或者其他文本的句子被划分后得到的长度为3的字符串中，也存在包含“机器”的字符串，则这些字符串也需要被统计。在得到包含“机器”的字符串(也就是第二字符串)后，对应每个第二字符串计算相应的概率值P_x，例如，分别计算“给机器”，“机器装”等字符串的概率。另外，通过对所有字符串进行统计，可以得到“机器”在整个数据集内的出现次数，如果出现次数大于第一预设值(如50次)，且这些概率值中的最大值小于第二预设值，则确定“机器”是可信词条。

建立模块74，用于根据所述可信词条建立分词词典。

可选的，所述建立模块74具体用于：

获取所述可信词条的词频信息；

根据所述可信词条及对应的词频信息，组成分词词典。

本实施例中，通过基于预设范围内收集的文本生成分词词典，可以考虑预设范围内的整体情况，根据范围不同生成不同的分词词典，避免仅根据专家知识造成的一些词难以统计的问题，获取与相应领域适合的分词词典，进而可以提高分词效果，提高语音合成效果。

图8是本发明另一实施例提出的语音合成装置的结构示意图，该装置80包括：

第一处理模块81，用于对输入文本进行文本处理，所述文本处理包括：分词处理，所述分词处理包括选择与所述输入文本对应的分词词典，所述分词词典是预先对与所述输入文本对应领域的文本进行训练后得到的；

第二处理模块82，用于对文本处理后的输入文本进行后续处理，得到合成语音。

另一实施例中，参见图9，该装置80还包括：

接收模块83，用于接收所述输入文本及所述输入文本的领域信息，以便根据所述领域信息选择所述分词词典。

例如，输入信息中包括小说，则可以选择小说领域的分词词典。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种分词词典的生成方法，其特征在于，包括：

对收集的预设范围内的文本进行划分，得到组成所述文本的句子；

对所述句子进行划分，得到不同长度的字符串；

根据所述不同长度的字符串，确定不同长度的字符串内的可信词条；

根据所述可信词条建立分词词典。

2.根据权利要求1所述的方法，其特征在于，所述预设范围包括：通用范围，或者，领域范围。

3.根据权利要求1所述的方法，其特征在于，所述对收集的预设范围内的文本进行划分，得到组成所述文本的句子，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述句子进行划分，得到不同长度的字符串，包括：

5.根据权利要求4所述的方法，其特征在于，所述n0＝1，所述L＝1。

6.根据权利要求1所述的方法，其特征在于，所述根据所述不同长度的字符串，确定不同长度的字符串内的可信词条，包括：

P_{x} = \frac{F_{x}}{Σ_{i = 1}^{M} F_{i}}, x = 1, 2, ..., M

7.根据权利要求1所述的方法，其特征在于，所述根据所述可信词条建立分词词典，包括：

获取所述可信词条的词频信息；

根据所述可信词条及对应的词频信息，组成分词词典。

8.一种语音合成方法，其特征在于，包括：

对输入文本进行文本处理，所述文本处理包括：分词处理，所述分词处理包括选择与所述输入文本对应的分词词典，所述分词词典是预先对与所述输入文本对应领域的文本进行训练后得到的；

对文本处理后的输入文本进行后续处理，得到合成语音；

所述分词词典是采用如权利要求1-7任一项所述的方法得到的。

9.根据权利要求8所述的方法，其特征在于，还包括：

接收所述输入文本及所述输入文本的领域信息，以便根据所述领域信息选择所述分词词典。

10.一种分词词典的生成装置，其特征在于，包括：

第一划分模块，用于对收集的预设范围内的文本进行划分，得到组成所述文本的句子；

第二划分模块，用于对所述句子进行划分，得到不同长度的字符串；

确定模块，用于根据所述不同长度的字符串，确定不同长度的字符串内的可信词条；

建立模块，用于根据所述可信词条建立分词词典。

11.根据权利要求10所述的装置，其特征在于，所述第一划分模块具体用于：

12.根据权利要求10所述的装置，其特征在于，所述第二划分模块具体用于：

13.根据权利要求10所述的装置，其特征在于，所述确定模块具体用于：

P_{x} = \frac{F_{x}}{Σ_{i = 1}^{M} F_{i}}, x = 1, 2, ..., M

14.根据权利要求10所述的装置，其特征在于，所述建立模块具体用于：

获取所述可信词条的词频信息；

根据所述可信词条及对应的词频信息，组成分词词典。

15.一种语音合成装置，其特征在于，包括：

第一处理模块，用于对输入文本进行文本处理，所述文本处理包括：分词处理，所述分词处理包括选择与所述输入文本对应的分词词典，所述分词词典是预先对与所述输入文本对应领域的文本进行训练后得到的；

第二处理模块，用于对文本处理后的输入文本进行后续处理，得到合成语音；

16.根据权利要求15所述的装置，其特征在于，还包括：

接收模块，用于接收所述输入文本及所述输入文本的领域信息，以便根据所述领域信息选择所述分词词典。