CN111833842B

CN111833842B - 合成音模板发现方法、装置以及设备

Info

Publication number: CN111833842B
Application number: CN202010621981.7A
Authority: CN
Inventors: 钟奥; 王建社; 冯祥
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-11-03
Anticipated expiration: 2040-06-30
Also published as: CN111833842A

Abstract

本发明公开了一种合成音模板发现方法、装置以及设备。本发明的构思在于利用合成音模板的重复特性，先在大量语音素材之间进行发音相似度比对，从中初选出疑似合成音模板，并将筛选出的语音素材进行切割，再结合合成音模板的发音特性，对切割后的各语音段进行归类，最后依据同类中所含语音段的数量，发现所需的合成音模板。本发明为后续的合成音检测补充了可靠的合成音模板样本，省去后续由人工进行大量的标注、辨识等工作，而且通过对疑似各语音片段进行独立分析，还能够解决语料中自然语音与合成语音相混淆的问题，由此可见，本发明可以在控制成本前提下，有效提升后续合成音检测的准确度。

Description

合成音模板发现方法、装置以及设备

技术领域

本发明涉及合成音识别领域，尤其涉及一种合成音模板发现方法、装置以及设备。

背景技术

随着网络通信为我们生活带来便捷的同时，对合成音进行智能检测、拦截的技术应运而生。

现有的合成音检测通常是基于神经网络预先训练出合成音识别模型，训练过程需要人工对音频样本进行区分并标注出合成音，并对所有的合成音数据进行音频特征提取，再转换为合成音特征。之后分别将合成音与自然人语音组合起来，以交叉熵函数为目标函数，采用Adam算法进行模型训练，使得合成音识别模型能够输出自然人语音与合成音的分类结果。

可见，现有的合成音识别技术的识别效果依赖于训练数据的数量和质量，如前所述，基于人工标注的训练样本不仅耗费大量人力成本，并且标注准确度受限于人工经验和处理能力；此外，现有技术中作为训练数据的合成音模板大多是根据特定场景、特定需求录制的，但在真实测试环境中，输入数据可能在信道、合成算法、合成风格等多方面与训练数据迥异，导致训练数据与真实测试数据不适配，进而大大影响合成音识别效果。

发明内容

鉴于上述，本发明旨在提供一种合成音模板发现方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，通过无监督的方式从大规模音频素材中自动发现并获取到合成音模板，在有效控制人工成本的同时，大幅提升后端的合成音识别效果。

本发明采用的技术方案如下：

第一方面，本发明提供了一种合成音模板发现方法，包括：

预先构建语音素材库；

提取所述语音素材库中所有待处理音频的均值超矢量；

基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频；

将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类；

根据各类别下的所述语音片段的数量，获取合成音模板。

在其中至少一种可能的实现方式中，所述基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类包括：

基于合成语音及自然语音的声学信息预设多个音频类别；

根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别。

在其中至少一种可能的实现方式中，所述根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别包括：

基于各语音片段及各音频类别的均值超矢量的相似度，求取各所述语音片段相对各音频类别的先验概率；

根据所述先验概率、各语音片段的均值超矢量以及预先构建的聚类模型，求取并迭代更新各语音片段的后验概率，最终确定出各语音片段所属的音频类别。

在其中至少一种可能的实现方式中，所述根据各类别下的所述语音片段的数量，获取合成音模板包括：

从所述语音片段的数量大于等于预设的目标数量阈值的类别中，选取其中至少一个所述语音片段作为所述合成音模板。

在其中至少一种可能的实现方式中，所述基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频包括：

基于预设的分库比对策略，将符合相似度标准的所述待处理音频构建混淆音频库；

将所述混淆音频库内的所述待处理音频作为所述近似音频。

在其中至少一种可能的实现方式中，所述基于预设的分库比对策略，将符合相似度标准的所述待处理音频构建混淆音频库包括：

根据音频时长，将所述语音素材库拆分为两个子库；

两个子库中的所述待处理音频基于所述均值超矢量进行一一比对；

将满足第一相似阈值的所述待处理音频构建混淆音频库；

若所述混淆音频库中的音频总数超出预设的数量上限，则拆分所述混淆音频库后再次进行相互比对，并基于第二相似阈值进行筛选，以此类推直至所述混淆音频库中的音频总数小于等于所述数量上限。

在其中至少一种可能的实现方式中，所述提取所述语音素材库中所有待处理音频的均值超矢量包括：

提取所述待处理音频基于耳蜗滤波器倒谱系数的声学特征；

利用所述声学特征以及预先训练的通用背景模型，估算出所述待处理音频的均值超矢量。

在其中至少一种可能的实现方式中，所述通用背景模型是基于所述声学特征及特定的联合算法训练得到的表征中性说话人的混合高斯模型。

第二方面，本发明提供了一种合成音模板发现装置，包括：

素材收集模块，用于预先构建语音素材库；

均值超矢量提取模块，用于提取所述语音素材库中所有待处理音频的均值超矢量；

相似音频筛选模块，用于基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频；

分割聚类模块，用于将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类；

合成音模板发现模块，用于根据各类别下的所述语音片段的数量，获取合成音模板。

在其中至少一种可能的实现方式中，所述分割聚类模块包括：

音频类别设定单元，用于基于合成语音及自然语音的声学信息预设多个音频类别；

片段归类单元，用于根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别。

在其中至少一种可能的实现方式中，所述片段归类单元包括：

第一聚类组件，用于基于各语音片段及各音频类别的均值超矢量的相似度，求取各所述语音片段相对各音频类别的先验概率；

第二聚类组件，用于根据所述先验概率、各语音片段的均值超矢量以及预先构建的聚类模型，求取并迭代更新各语音片段的后验概率，最终确定出各语音片段所属的音频类别。

在其中至少一种可能的实现方式中，所述合成音模板发现模块，具体用于从所述语音片段的数量大于等于预设的目标数量阈值的类别中，选取其中至少一个所述语音片段作为所述合成音模板。

在其中至少一种可能的实现方式中，所述相似音频筛选模块包括：

分库比对单元，用于基于预设的分库比对策略，将符合相似度标准的所述待处理音频构建混淆音频库；

近似音频确定单元，用于将所述混淆音频库内的所述待处理音频作为所述近似音频。

在其中至少一种可能的实现方式中，所述分库比对单元包括：

分库组件，用于根据音频时长，将所述语音素材库拆分为两个子库；

相似度比对组件，用于两个子库中的所述待处理音频基于所述均值超矢量进行一一比对；

混淆音频库构建组件，用于将满足第一相似阈值的所述待处理音频构建混淆音频库；

循环组件，用于若所述混淆音频库中的音频总数超出预设的数量上限，则拆分所述混淆音频库后再次进行相互比对，并基于第二相似阈值进行筛选，以此类推直至所述混淆音频库中的音频总数小于等于所述数量上限。

在其中至少一种可能的实现方式中，所述均值超矢量提取模块包括：

声学特征提取单元，用于提取所述待处理音频基于耳蜗滤波器倒谱系数的声学特征；

均值超矢量估算单元，用于利用所述声学特征以及预先训练的通用背景模型，估算出所述待处理音频的均值超矢量。

第三方面，本发明提供了一种合成音模板发现设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的一种可能的设计中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于利用合成音模板的重复特性，先在大量语音素材之间进行发音相似度比对，从中初选出疑似合成音模板，并将筛选出的语音素材进行切割，再结合合成音模板的发音特性，对切割后的各语音段进行归类，最后依据同类中所含语音段的数量，发现所需的合成音模板。本发明为后续的合成音检测补充了可靠的合成音模板样本，省去后续由人工进行大量的标注、辨识等工作，而且通过对疑似各语音片段进行独立分析，还能够解决语料中自然语音与合成语音相混淆的问题，由此可见，本发明可以在控制成本前提下，有效提升后续合成音检测的准确度。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的合成音模板发现方法的实施例的流程图；

图2为本发明提供的分库比对策略的较佳实施例的流程图；

图3为本发明提供的合成音模板发现装置的实施例的方框图；

图4为本发明提供的合成音模板发现设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供了至少一种合成音模板发现方法的实施例，如图1所示，可以包括如下步骤：

步骤S1、预先构建语音素材库。

本发明以库的形式搜集语音素材，目的是从多种信道、多种场景、多种已存在的大量语音资料中发现最终所需的合成音模板，这里所称合成音模板包括已形成格式和标准的合成音素材，这类合成音素材从应用规模和声学层面都具有一定特性；而对于本步骤的搜集来源则可以有多种选择，例如但限于来自网络舆情音频库或者需要检测合成音模板的特定音频库等。

步骤S2、提取所述语音素材库中所有待处理音频的均值超矢量。

在说话人区分技术中，通常会涉及提取均值超矢量等类似手段，但仍需说明的是，具体结合本发明所关注的合成音模板发现技术而言，本发明在借鉴说话人识别相关技术手段的基础上，在一些较佳实施例中还针对本发明所需，提出了更为具体的、具有针对性的实施方式，例如在一些实施例中，前述提取所述语音素材库中所有待处理音频的均值超矢量，可以具体包括先提取所述待处理音频基于耳蜗滤波器倒谱系数的声学特征，再利用所述声学特征以及预先训练的通用背景模型，估算出所述待处理音频的均值超矢量。

对此可以说明的是，前述声学特征传统上可以包括诸如MFCC、PLP、BN等源于发音人声学角度的特征参数，但在前述优选实施例中，本发明提出采用不同于传统的基于耳蜗滤波器倒谱系数的声学特征，该声学特征的获取方式是一种模拟了人耳内基底膜(basilarmembrane)对于输入信号进行响应的算法，例如可通过对输入的语音信号进行听觉变换、在通过加窗处理以及非线性、离散余弦变换等，便可以得到该声学特征。在实际操作中，前述听觉变换可以采用Gammatone滤波器对原始输入信号进行处理，从而可以模拟出声音从外耳到耳内基底膜传输的全部过程，其原理是：当语音信号传入人耳造成基底膜上下运动时，在基底膜和盖膜(tectorial membrane)之间产生了切应力，此切应力造成了最上层的毛细胞位移，从而使毛细胞产生神经信号，但是毛细胞只在基底膜往一个方向运动时产生神经信号，当基底膜朝另一个方向运动时，既不激发毛细胞，也不产生神经信号。因而可以尝试不同的毛细胞激励函数，以更佳地模拟出毛细胞的响应。该声学特征本身不是本发明侧重点，本发明的改进在于是将这个对环境噪声具有很强鲁棒性的声学特征应用于合成音模板发现这个特定的技术需求之下，以使得后续提取的均值超矢量能够更真实、可靠地反映各语音素材的特点。

接着，对前述提取到的声学特征训练通用背景模型，这里需指出，本发明所提出的合成音模板发现方案，不是针对所收集的语音素材定制合成音检测模型，而是考虑直接采用无监督训练方式为大量语音样本设计声学特点检测机制，即设计前述通用背景模型以涵盖多种信道、应用场景下的语音数据，进而才能基于此进行后续的素材间的相似度比对。由此，在本发明的一些实施例中提出，前述通用背景模型的核心可以采用高斯混合模型(GMM)，以对不同语音源的音素分布进行建模，因此通过比较不同语音样本的GMM音素分布(客观上，合成音模板也有着独特且极其丰富的音素信息)，就可以在无需对合成语音和自然语音进行标注的前提下，辅助区分出自然语音数据和合成语音数据。

具体建立通用背景模型的过程简述如下；输入前文提及的基于耳蜗滤波器倒谱系数特征矢量，并采用LBG算法计算初始模型，LBG算法构建的模型由于采取了一个硬判决(一个点全部判定属于哪个类或者不属于哪个类)的方式，所以往往只能得到一个初始模型，因此，本发明提出在完成LBG模型训练后还可以采用EM迭代算法进一步优化训该模型，前述训练过程本身在此不作赘述，总之，训练完成后便可以得到一个中性说话人的混合高斯模型，即拟合了绝大多数说话人发声特点的中性模型，由此本发明不会出现现有合成音检测中训练数据与真实测试数据不适配的问题。接着，结合该通用背景模型中每一个高斯混合分量和特征参数，估算出全局差异空间T，接下来就可以进一步估算出前述均值超矢量(例如i-vector)。这里所涉及的“估算”本身属于常规技术，实施本发明时可以借鉴现有技术，对此本发明不做赘述。

步骤S3、基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频。

如前文提及的，本发明的目的不是对语音素材进行合成音检测，而是要依靠其自身发现合成音模板，因此，本步骤提出在所有语音素材之间，比对各自前述均值超矢量的接近程度，当然，在某些实施方式中也可以理解为重复度，因为本发明经分析认为存在于海量语音素材中的合成音模板，会具有重复的特性，即可能发送方将一种合成音模板广发至其所有用户，因而本发明前提是需要在较大范围内搜集到的大量语音素材，而其中大概率就会存在着高重复性的合成音模板。当然，在真实场景中这种“重复”不是严格意义上的一字不差的复制，因此本发明在此处提出比对的是素材之间的相似度。

关于比对方式，则可以有多种选择，例如之间基于原始的语音素材库进行内部比对，但考虑到语音素材采集的广度和规模，更优地，可以基于预设的分库比对策略进行比对，即按照预设的标准(例如但不限于按各语音素材的时长)拆分原始的语音素材库，形成较小规模的和/或去除杂质的子库，接着在子库之间进行比对，进一步地，将符合相似度标准的前述待处理音频构建为混淆音频库(即其中可以包括相对更为接近、相似、重复的若干语音素材)，而这些存于所述混淆音频库内的各所述待处理音频便可以作为所述近似音频——本发明后续环节的处理对象。

举例来说，可以按照音频时长和素材数量将原始的语音素材库均分为两份，还可命名为A库和B库，采用A库中的每一个待处理素材的均值超矢量与B库中每一个待处理素材进行一一比对，而比对方式本身可以参考但不限于如下：对参加比对的均值超矢量w₁和w₂，计算二者的余弦距离并可以设计计算后的相似得分在[0-1]区间之间，两个音频的声学元素(如音素等)、内容信息等越相似，得分就会越高，进而可以按照预设的阈值选取出高分的相似待处理语音放入前述混淆音频库。

考虑到在实施本发明时，构建的语音素材库其规模和来源并没有绝对限制，因为可能使得该语音素材库中的待处理音频数量较大，因而前述分库比对策略，还可以改进为图2所示的方式，包括：

步骤S31、根据音频时长，将所述语音素材库拆分为两个子库；

步骤S32、两个子库中的所述待处理音频基于所述均值超矢量进行一一比对；

步骤S33、将满足第一相似阈值的所述待处理音频构建混淆音频库；

步骤S34、若所述混淆音频库中的音频总数超出预设的数量上限，则拆分所述混淆音频库后再次进行相互比对，并基于第二相似阈值进行筛选，以此类推直至所述混淆音频库中的音频总数小于等于所述数量上限。

也即是基于预设的“库存”数量标准，经多轮分库操作并结合调整相似度得分阈值的方式，将较大规模的原始语音素材进行逐级过滤、筛选，从而精选出符合合理的处理数量且更为相似的所述近似音频。当然，本领域技术人员可以理解的是，无论采用何种分库比对方式，分库操作本身，其可以发生在前述任一步骤阶段，也即是分库可以在构建原始的语音素材库之后立即执行，而无需与比对操作同步，因此本发明对分库操作本身的时序不做限定。

步骤S4、将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类。

此处需先指明，步骤S4实质蕴含了两个操作环节，一个是先对待处理音频进行分割操作，得到较短的语音片段；另一个是再对各语音片段进行类别标记。

分割的设计，其目的是考虑到前述语音素材的搜集对象是广泛的，因而素材中可能包含较长语句的样本，且还可能包含自然语音与合成语音相混淆的样本，因而对各近似音频进行切割，可以得到具有较短时长且相对完整的单语句样本，也可能一并将自然语音和合成语音进行分离，尤其对于后者，可以想见的是，经本发明处理后不会出现自然/合成相混合的训练数据，因而对后续合成音检测及其定制模型的训练而言，本实施例可以提供更为精准的数据基础，进而提升后续的合成音检测准确度。而具体所采用的音频切分技术中的可以借鉴成熟的相关算法，例如但不限于VAD等，对此本发明不做限定。

类别标记的设计，其目的是对前述各语音片段标记出声学角度的类别，也即是确定出每一个语音片段的声学类别所属。因而，在本发明的一些实施例中，可以基于合成语音及自然语音的声学信息预设出多个音频类别，每个类别即代表某相似声学特点的集合，接着考察各所述语音片段相对各个音频类别的概率得分，从而便可以确定各所述语音片段的音频类别。

该过程在具体操作时，可以对筛选后的高混淆音频库采用短时语音聚类算法进行前述归类操作，现有短时语音聚类技术，通过单高斯就可以有很好的描述能力，但是，本发明经实践分析发现，随着层次聚类不断进行，数据的时长也可能会增加，仅仅依靠单高斯不足以对不用的语音发音特点的分布进行准确描述，基于此，本发明提出可以考虑采用多聚类思想、算法进行联合实现，例如在一些更佳的实施例中，可以先基于各语音片段及各音频类别的均值超矢量的相似度，求取各所述语音片段相对各音频类别的先验概率，接着再根据所述先验概率、各语音片段的均值超矢量以及预先构建的聚类模型，求取并迭代更新各语音片段的后验概率，最终便可确定出各语音片段所属的音频类别。

具体来说，可以融合短时聚类和长时聚类，充分利用二者各自的可靠性及优势进行归类标记操作。例如但不限于：

(1)先初始化若干预设的音频类别，并提取相应于该类别的均值超矢量作为该类别的类中心；接着，对每个相对短时的所述语音片段，提取其均值超矢量(实际操作中，此均值超矢量可以直接来自前述提取均值超矢量的步骤，因此可以简化运算过程)。

(2)求取各语音片段的均值超矢量与每个类中心的均值超矢量的余弦距离的平方，以此作为所述先验概率，由此每个短时的语音片段相对于每个音频类别都会得到一个概率得分。

(3)设计的聚类阈值，并结合某些成熟、可靠的长时聚类算法，例如但不限于PLDA模型，利用前述均值超矢量及相应的先验概率，求出聚类模型的目标函数值，并由聚类模型的运算结果，更新每个语音片段属于每个类别的后验概率得分，合并运算后相似的语音片段并再重新提取均值超矢量，经过多次循环迭代，直至目标函数值不再增加。

前述提及的联合聚类方式、聚类算法、聚类阈值等仅为示意性的，而且进行实际聚类操作时，通过聚类阈值可以根据数据规模进行调整，总之，前述内容的核心思想即是先进行前端初步聚类，再对聚类效果进行后端增强，直至得到更为精准、可靠的语音片段的类别标记。

步骤S5、根据各类别下的所述语音片段的数量，获取合成音模板。

具体实施时，可以在步骤S4的结果上，对每个“打上”类别标记的语音片段进行再次聚类，也即是整理步骤S4的结果，以便统计各类别下的语音片段的数量，实现方式可以但不限于采用AP聚类技术进行层次聚类，且聚类方式也可以采用前文提及的与均值超矢量、设定的类别及聚类阈值挂钩，采用与上述类似的思想进行聚类。进一步地，还可以参考前文分析，合成音模板在原始语音素材中具有大量重复的特性，也即是同一类别的语音片段数量与该类别属于合成音模板的正确率具有正相关性，因而此步骤聚类后，还可以通过设定目标数量阈值予以实现，其效果是一方面可将不同的合成音模板进行区分，另一方面还可以过滤掉非合成音数据的干扰、便捷地发现本发明所需的合成音模板。例如，可以将所述语音片段的数量大于等于预设的目标数量阈值的类别确定为其内语音片段均为合成音模板，进而选取其中至少一个语音片段便可作为所需的合成音模板(“模板”即意味着具有重复、接近的特性，因此优选地，可从该类别中随机选取一个作为代表——即经由本发明从大量原始素材中发现的合成音模板)。

综上所述，本发明的构思在于利用合成音模板的重复特性，先在大量语音素材之间进行发音相似度比对，从中初选出疑似合成音模板，并将筛选出的语音素材进行切割，再结合合成音模板的发音特性，对切割后的各语音段进行归类，最后依据同类中所含语音段的数量，发现所需的合成音模板。本发明为后续的合成音检测补充了可靠的合成音模板样本，省去后续由人工进行大量的标注、辨识等工作，而且通过对疑似各语音片段进行独立分析，还能够解决语料中自然语音与合成语音相混淆的问题，由此可见，本发明可以在控制成本前提下，有效提升后续合成音检测的准确度。

相应于上述各实施例及优选方案，本发明还提供了一种合成音模板发现装置的实施例，如图3所示，具体可以包括如下部件：

素材收集模块1，用于预先构建语音素材库；

均值超矢量提取模块2，用于提取所述语音素材库中所有待处理音频的均值超矢量；

相似音频筛选模块3，用于基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频；

分割聚类模块4，用于将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类；

合成音模板发现模块5，用于根据各类别下的所述语音片段的数量，获取合成音模板。

应理解以上图3所示的合成音模板发现装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种合成音模板发现设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

图4为本发明合成音模板发现设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、智能终端(手机、平板、手表、眼镜等)等。本实施例对合成音模板发现设备的具体形式不作限定。

具体如图4所示，合成音模板发现设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得合成音模板发现设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述合成音模板发现设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图4所示的合成音模板发现设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图4所示的合成音模板发现设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的合成音模板发现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种合成音模板发现方法，其特征在于，包括：

预先构建语音素材库；

提取所述语音素材库中所有待处理音频的均值超矢量；

将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类，包括：基于合成语音及自然语音的声学信息预设多个音频类别；根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别；

根据各类别下的所述语音片段的数量，获取合成音模板，包括从所述语音片段的数量大于等于预设的目标数量阈值的类别中，选取其中至少一个所述语音片段作为所述合成音模板。

2.根据权利要求1所述的合成音模板发现方法，其特征在于，所述根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别包括：

3.根据权利要求1所述的合成音模板发现方法，其特征在于，所述基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频包括：

将所述混淆音频库内的所述待处理音频作为所述近似音频。

4.根据权利要求3所述的合成音模板发现方法，其特征在于，所述基于预设的分库比对策略，将符合相似度标准的所述待处理音频构建混淆音频库包括：

根据音频时长，将所述语音素材库拆分为两个子库；

将满足第一相似阈值的所述待处理音频构建混淆音频库；

5.根据权利要求1～4任一项所述的合成音模板发现方法，其特征在于，所述提取所述语音素材库中所有待处理音频的均值超矢量包括：

提取所述待处理音频基于耳蜗滤波器倒谱系数的声学特征；

6.根据权利要求5所述的合成音模板发现方法，其特征在于，所述通用背景模型是基于所述声学特征及预设的联合算法训练得到的表征中性说话人的混合高斯模型。

7.一种合成音模板发现装置，其特征在于，包括：

素材收集模块，用于预先构建语音素材库；

分割聚类模块，用于将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类，包括：基于合成语音及自然语音的声学信息预设多个音频类别；根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别；

合成音模板发现模块，用于根据各类别下的所述语音片段的数量，获取合成音模板，包括从所述语音片段的数量大于等于预设的目标数量阈值的类别中，选取其中至少一个所述语音片段作为所述合成音模板。

8.根据权利要求7所述的合成音模板发现装置，其特征在于，所述分割聚类模块包括：

9.根据权利要求8所述的合成音模板发现装置，其特征在于，所述片段归类单元包括：

10.一种合成音模板发现设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1～6任一项所述的合成音模板发现方法。