CN110634487B

CN110634487B - 一种双语种混合语音识别方法、装置、设备及存储介质

Info

Publication number: CN110634487B
Application number: CN201911017292.9A
Authority: CN
Inventors: 刘迪源; 熊世富; 潘嘉; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-05-17
Anticipated expiration: 2039-10-24
Also published as: CN110634487A

Abstract

本申请提供了一种双语种混合语音识别方法、装置、设备及存储介质，方法包括：获取目标语音，其中，目标语音为第一语种与第二语种的混合语音；利用预先建立的双语种混合语音识别模型对目标语音进行识别，获得多个候选识别文本以及多个候选识别文本分别对应的得分，其中，双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率，任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定；根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本。本申请对双语种混合语音具有较好的识别效果，用户体验较好。

Description

一种双语种混合语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种双语种混合语音识别方法、装置、设备及存储介质。

背景技术

随着人工智能相关技术的日益成熟，越来越多的智能设备进入用户的生活中，人与机器的交互日渐平常。语音输入是人机交互中最自然、最便捷的方式，它可以解放双手，从而受到用户的喜爱。目前的智能设备大多具有语音识别功能，语音识别功能方便了用户的生活。

目前的语音识别方案对单一语种的语音具有较好的识别效果，但是，在某些时候，待识别语音可能并不只是单一语种的语音，还可能为双语种的混合语音，比如，内容为“他是一个很handsome的boy”的中英混合语音，而现有的语音识别方案对双语种混合语音的识别效果较差。

发明内容

有鉴于此，本申请提供了一种双语种混合语音识别方法、装置、设备及存储介质，用以解决现有的语音识别方案对双语种混合语音的识别效果较差的问题，其技术方案如下：

一种双语种混合语音识别方法，包括：

获取目标语音，其中，所述目标语音为第一语种与第二语种的混合语音；

利用预先建立的双语种混合语音识别模型对所述目标语音进行识别，获得多个候选识别文本以及所述多个候选识别文本分别对应的得分，其中，所述双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率，任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定；

根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本。

可选的，所述根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本，包括：

根据所述多个候选识别文本中各候选识别文本所涉及的语种以及所述多个候选识别文本分别对应的得分与用户交互；

根据交互结果从所述多个候选识别文本中确定出所述目标语音的目标识别文本。

可选的，任一候选识别文本对应的得分包括：该候选识别文本的整体得分和该候选识别文本中每个文本单元的得分，该候选识别文本的整体得分根据该候选识别文本中各个文本单元的得分确定，该候选识别文本中任一文本单元的得分根据该文本单元的文本分类概率和该文本单元的语种分类概率确定；

所述根据所述多个候选识别文本中各候选识别文本所涉及的语种以及所述多个候选识别文本分别对应的得分与用户交互，包括：

若所述多个候选识别文本中存在满足预设条件的候选识别文本，则输出用于提示用户确认所述目标语音是否为双语种混合语音的提示信息；

其中，所述预设条件为：候选识别文本中同时存在第一语种的文本单元和第二语种的文本单元，且第二语种的文本单元的得分在预设的得分范围内。

可选的，所述根据交互结果从所述多个候选识别文本中确定出所述目标语音的目标识别文本，包括：

若用户确认所述目标语音为双语种混合语音，则将所述满足预设条件的候选识别文本中，整体得分最高的候选识别文本确定为所述目标语音的目标识别文本；

若用户确认所述目标语音不为双语种混合语音，则将所述多个候选识别文本中，整体得分最高的候选识别文本确定为所述目标语音的目标识别文本。

可选的，预先构建双语种混合语音识别模型的过程包括：

从预先构建的训练数据集中获取训练语音，其中，所述训练数据集中包括第一语种的训练语音、第二语种的训练语音，以及第一语种与第二语种的混合训练语音；

利用获取的训练语音以及该训练语音对应的标注文本训练双语种混合语音识别模型，其中，一训练语音对应的标注文本为对该训练语音对应的文本进行标注得到，每条训练语音对应的文本中的每个文本单元标注有语种，每条第一语种与第二语种的混合训练语音对应的文本中，第二语种的文本单元标注有词性。

可选的，所述第一语种与第二语种的混合训练语音根据第一语种的文本生成；

根据所述第一语种的文本生成所述第一语种与第二语种的混合训练语音，包括：

将所述第一语种的文本处理成第一语种与第二语种的混合文本；

根据所述第一语种与第二语种的混合文本，生成所述第一语种与第二语种的混合训练语音。

可选的，所述将所述第一语种的文本处理成第一语种与第二语种的混合文本，包括：

从所述第一语种的文本中选取至少一个文本单元；

将选取的第一语种的文本单元翻译成第二语种的文本单元，针对每个第一语种的文本单元获得至少一个第二语种的文本单元；

根据所述第一语种的文本和所述至少一个第二语种的文本单元，生成至少一个第一语种与第二语种的混合文本。

可选的，所述根据所述第一语种与第二语种的混合文本，生成所述第一语种与第二语种的混合训练语音，包括：

若所述第一语种与第二语种的混合文本为一个，则将该第一语种与第二语种的混合文本转换为音频，作为一条第一语种与第二语种的混合训练语音；

若所述第一语种与第二语种的混合文本为多个，则分别将每个第一语种与第二语种的混合文本转换为音频，获得的每个音频作为一条第一语种与第二语种的混合训练语音，或者，利用语言模型从多个第一语种与第二语种的混合文本中选取最优混合文本，将所述最优混合文本转换为音频，获得一条第一语种与第二语种的混合训练语音。

可选的，所述利用获取的训练语音以及该训练语音对应的标注文本训练双语种混合语音识别模型，包括：

通过该训练语音、预先获得的多个第二语种高频词以及双语种混合语音识别模型，确定该训练语音对应的识别文本和该识别文本中每个文本单元的语种；

根据该训练语音对应的识别文本和该识别文本中每个文本单元的语种，以及该训练语音对应的标注文本，确定双语种混合语音识别模型的预测损失；

根据所述双语种混合语音识别模型的预测损失，更新双语种混合语音识别模型参数。

可选的，所述根据该训练语音对应的识别文本和该识别文本中每个文本单元的语种，以及该训练语音对应的标注文本，确定双语种混合语音识别模型的预测损失，包括：

根据该训练语音对应的识别文本中的每个文本单元以及该训练语音对应的标注文本中的每个文本单元，确定文本单元预测损失；

根据该训练语音对应的识别文本中每个文本单元的语种和该训练语音对应的标注文本中每个文本单元标注的语种，确定语种预测损失；

将所述文本单元预测损失与所述语种预测损失融合，获得所述双语种混合语音识别模型的预测损失。

一种双语种混合语音识别装置，包括：语音获取模块、语音识别模块和识别文本确定模块；

所述语音获取模块，用于获取目标语音，其中，所述目标语音为第一语种与第二语种的混合语音；

所述语音识别模块，用于利用预先建立的双语种混合语音识别模型对所述目标语音进行识别，获得多个候选识别文本以及所述多个候选识别文本分别对应的得分，其中，所述双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率，任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定；

所述识别文本确定模块，用于根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本。

可选的，所述识别文本确定模块包括：用户交互子模块和识别文本确定子模块；

所述用户交互子模块，用于根据所述多个候选识别文本中各候选识别文本所涉及的语种以及所述多个候选识别文本分别对应的得分与用户交互；

所述识别文本确定子模块，用于根据交互结果从所述多个候选识别文本中确定出所述目标语音的目标识别文本。

一种双语种混合语音识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的双语种混合语音识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的双语种混合语音识别方法的各个步骤。

经由上述方案可知，本申请提供的双语种混合语音识别方法，在获得待识别的目标语音后，利用预先建立的双语种混合语音识别模型对目标语音进行识别，获得多个候选识别文本以及多个候选识别文本分别对应的得分，进而根据多个候选识别文本分别对应的得分从多个候选识别文本中确定出目标语音的目标识别文本。本申请利用预先建立的双语种混合语音识别模型对双语种混合语音进行识别，显著提升了双语种混合语音的识别效果，用户体验较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的双语种混合语音识别方法的流程示意图；

图2为本申请实施例提供的根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本的一种实现方式的流程示意图；

图3为本申请实施例提供的生成第一语种与第二语种的混合训练语音的流程示意图；

图4为本申请实施例提供的利用训练语音及该训练语音对应的标注文本，训练双语种混合语音识别模型的流程示意图；

图5为本申请实施例提供的双语种混合语音识别模型的一拓扑结构的示例的示意图；

图6为本申请实施例提供的双语种混合语音识别装置的结构示意图；

图7为本申请实施例提供的双语种混合语音识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人在实现本发明的过程中发现，目前的语音识别方案大多为基于单一语种语音识别模型的识别方案，基于单一语种语音识别模型的识别方案对单一语种语音具有较好的识别效果，但对于双语种混合语音的识别效果不佳，比如，基于中文语音识别模型的识别方案对中文语音的识别效果较好，但是，其对于中英混合语音的识别效果较差，因为，中文语音识别模型对于英文词的识别效果较差。

为了提升双语种混合语音的识别效果，本案发明人进行研究，起初的思路是：采用基于音素HMM模型的识别方案，该方案的大致思路为，先使用神经网络对音素状态进行建模，然后结合隐马尔科夫模型进行识别，为了实现双语种混合语音识别，该方案需要建立双语种混合的发音体系。

发明人通过研究发现，基于HMM状态建模的识别方案是将声学模型和语言模型分开训练，两者不能联合在一起优化模型效果，另外，双语种混合语料的缺乏导致语言模型的训练数据不足，这些因素导致基于HMM状态建模的识别方案对于双语种混合语音的识别效果依然比较差。

有鉴于此，本案发明人进一步深入研究，最终提出了一种效果较好的双语种混合语音识别方法，该方法对双语种混合语音具有较好的识别效果，该识别方法可应用于具有数据处理能力的终端，也可应用于服务器。接下来对本申请提供的双语种混合语音识别方法进行介绍。

请参阅图1，示出了本申请实施例提供的双语种混合语音识别方法的流程示意图，该方法可以包括：

步骤S101：获取目标语音。

其中，目标语音为第一语种与第二语种的混合语音，比如，中英混合语音、中法混合语音等。

步骤S102：利用预先建立的双语种混合语音识别模型对目标语音进行识别，获得多个候选识别文本以及多个候选识别文本分别对应的得分。

其中，一个候选识别文本对应的得分至少包括该候选识别文本的整体得分，优选的，还可以包括该候选识别文本中每个文本单元的得分。

本实施例中的双语种混合语音识别模型能够确定出每个候选识别文本的文本分类得分和语种分类得分，一个文本单元的得分通过该文本单元的文本分类概率和该文本单元的语种分类概率确定，可选的，一个文本单元的得分可以为该文本单元的分类概率与该文本单元的语种分类概率的乘积，一个候选识别文本的整体得分根据该候选识别文本中各个文本单元的得分确定，可选的，该候选识别文本的整体得分可以为该候选识别文本中各个文本单元的得分的乘积。

需要说明的是，在利用双语种混合语音模型对目标语音进行识别时，双语种混合语音模型会输出多个候选识别文本，在一种可能的实现方式中，上述步骤S102中的“多个候选识别文本”可以为双语种混合语音模型输出的多个候选识别文本，在另一种可能的实现方式中，上述步骤S102中的“多个候选识别文本”可以为将双语种混合语音模型输出的多个候选识别文本按整体得分由高到低的顺序排序后，整体得分排前N(比如10)的N个候选识别文本。

步骤S103：根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本。

本申请实施例提供的双语种混合语音识别方法，在获得待识别的目标语音后，利用预先建立的双语种混合语音识别模型对目标语音进行识别，获得多个候选识别文本以及多个候选识别文本分别对应的得分，进而根据多个候选识别文本分别对应的得分从多个候选识别文本中确定出目标语音的目标识别文本。本申请实施例利用预先建立的双语种混合语音识别模型对双语种混合语音进行识别，相比于现有技术中基于单一语种语音识别模型的识别方案，显著提升了双语种混合语音的识别效果，用户体验较好。另外，本申请实施例中的双语种混合语音识别模型不但进行文本预测还会进行语种预测，语种预测的引入能够提升语音识别效果。

以下对上述实施例中的“步骤S103：根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本”进行介绍。

根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本的实现方式有多种：

在一种可能的实现方式中，可从多个候选识别文本中确定出整体得分最高的候选识别文本，将整体得分最高的候选识别文本确定为目标语音的目标识别文本。

考虑到整体得分最高的候选识别文本可能并不是目标语音的最优识别文本，比如，目标语音为中英混合语音，目标语音的多个候选识别结果中，整体得分最高的候选识别文本可能为纯中文文本，为了能够获得更好的识别效果，本申请提供了另外一种较优的实现方式，该实现方式的思路是：根据多个候选识别文本中各候选识别文本所涉及的语种以及多个候选识别文本分别对应的得分与用户交互，根据交互结果从多个候选识别文本中确定出目标语音的目标识别文本。

在上述思路的基础上，给出根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本的另一种实现方式的流程示意图，如图2所示，可以包括：

步骤S201：判断多个候选识别文本中是否存在满足预设条件的候选识别文本，若是，则执行步骤S202a，若否，则执行步骤S202b。

在一种可能的实现方式中，预设条件可以为：候选识别文本中同时存在第一语种的文本单元和第二语种的文本单元。需要说明的是，若候选识别文本满足该预设条件，则说明目标语音可能为第一语种与第二语种的混合语音，此时，执行步骤S202a。

示例的，一候选识别文本为“这是一个很nice的人”，由于“这是一个很nice的人”中同时存在中文词和英文词，因此，候选识别文本“这是一个很nice的人”满足预设条件。

在另一种可能的实现方式中，预设条件可以为候选识别文本中同时存在第一语种的文本单元和第二语种的文本单元，且第二语种的文本单元的得分在预设的得分范围内。需要说明的是，若候选识别文本满足该预设条件，说明目标语音可能为第一语种与第二语种的混合语音，且为第一语种与第二语种的混合语音的可能性较大。

示例的，一候选识别文本为“这是一个很nice的人”，其中，“nice”的得分为0.6，假设预设的得分范围为0.3～0.7，由于“这是一个很nice的人”中同时存在中文词和英文词，并且，英文词“nice”的得分在预设的得分范围0.3～0.7内，因此，候选识别文本“这是一个很nice的人”满足预设条件。

为了避免与用户交互过于频繁，本实施例中的预设条件优选为：候选识别文本中同时存在第一语种的文本单元和第二语种的文本单元，且第二语种的文本单元的得分在预设的得分范围内。

步骤S202a：输出用于提示用户确认目标语音是否为双语种混合语音的提示信息，若用户确认目标语音为双语种混合语音，则执行步骤S203，若用户确认目标语音不为双语种混合语音，则执行步骤S202b。

步骤S203：将满足预设条件的候选识别文本中，整体得分最高的候选识别文本确定为目标语音的目标识别文本。

示例性的，候选识别文本有10个，其中有5个候选识别文本满足预设条件，则将满足预设条件的5个候选识别文本中，整体得分最高的候选识别文本确定为目标语音的目标识别文本。

步骤S202b：将整体得分最高的候选识别文本确定为目标语音的目标识别文本。

示例性的，候选识别文本有10个，这10个候选识别文本均不满足预设条件，则将10个候选识别文本中整体得分最高的候选识别文本确定为目标语音的目标识别文本。

经由上述实施例可知，本申请预先构建双语种混合语音识别模型，利用预先构建的双语种混合语音识别模型对目标语音进行识别。接下来对构建双语种混合语音识别模型进行介绍。

构建双语种混合语音识别模型的过程包括：从预先构建的训练数据集中获取训练语音；利用训练语音及该训练语音对应的标注文本，训练双语种混合语音识别模型。

为了使双语种混合语音识别模型对第一语种的语音和第二语种的语音具有较好的识别效果，又能对第一语种与第二语种的混合语音具有较好的识别效果，本实施例的训练数据集中包括第一语种的训练语音、第二语种的训练语音，以及第一语种与第二语种的混合训练语音。

训练数据集中的每条训练语音对应有一标注文本，一训练语音对应的标注文本为对该训练语音对应的文本进行标注得到，每条训练语音对应的文本中的每个文本单元具有语种标注，每条第一语种与第二语种的混合训练语音对应的文本中，第二语种的文本单元具有词性标注。

需要说明的是，第一语种的训练语音和第二语种的训练语音比较容易收集，但是，第一语种与第二语种的混合训练语音较难收集。可以理解的是，若要获得对第一语种与第二语种的混合语音具有较好识别效果的双语种混合语音识别模型，需要有足够多第一语种与第二语种的混合训练语音。

为了能够获得较多第一语种与第二语种的混合训练语音，在一种可能的实现方式中，可利用人工录制的方法获取第一语种与第二语种的混合训练语音，然而，人工录制的方法耗时耗力，人工成本和时间成本较高，鉴于人工录制方法存在的问题，本实施例提供了一种能够自动生成第一语种与第二语种的混合训练语音的方法，该方法能够自动、高效地生成第一语种与第二语种的混合训练语音，相比于人工录制的方法，大大节省了人工成本和时间成本。

请参阅图3，示出了本实施例提供的生成第一语种与第二语种的混合训练语音的方法的流程示意图，可以包括：

步骤S301：将第一语种的文本处理成第一语种与第二语种的混合文本。

具体的，将第一语种的文本处理成第一语种与第二语种的混合文本的过程可以包括：

步骤S3011、从第一语种的文本中选取至少一个文本单元。

其中，文本单元可以但不限定为字、词、词组、短语等。假设第一语种的文本为中文文本，则从第一语种的文本中选取的文本单元可以为一个字，也可以为一个词，假设第一语种的文本为英文文本，则文本单元可以为一个词，也可为一个词组。

以第一语种的文本为中文文本为例：假设中文文本为“这是一个很好的人”，则从该中文文本中选取至少一个文本单元，比如，可选取一个文本单元“好”。

步骤S3012、将选取的第一语种的文本单元翻译成第二语种的文本单元，针对每个第一语种的文本单元获得至少一个第二语种的文本单元。

可选的，可根据词典将选取的第一语种的文本单元翻译成第二语种的文本单元，还可以利用机器翻译的方法将第一语种的文本单元翻译成第二语种的文本单元。

步骤S3013、根据第一语种的文本和至少一个第二语种的文本单元，生成至少一个第一语种与第二语种的混合文本。

具体的，可用第二语种的文本单元替换第一语种中对应的文本单元，以获得第一语种与第二语种的混合文本。

示例性的，第一语种的文本为上述提到的中文文本“这是一个很好的人”，从该文本中选取一个文本单元“好”，将文本单元“好”翻译成英文，可得到“good”和“nice”两个英文词，用英文词“good”和“nice”分别替换中文文本“这是一个很好的人”中的“好”，如此可得到两个中英混合文本“这是一个很good的人”和“这是一个很nice的人”。

需要说明的是，假设从第一语种的文本单元选取了一个文本单元，该文本单元的翻译结果有N个，则可生成N个第一语种与第二语种的混合文本，假设从第一语种的文本单元选取两个文本单元，其中一个文本单元的翻译结果有M个，另外一个文本单元的翻译结果有Q个，则可生成M*Q个第一语种与第二语种的混合文本，以此类推。

步骤S302：根据第一语种与第二语种的混合文本，生成第一语种与第二语种的混合训练语音。

需要说明的是，通过步骤S302获得的第一语种与第二语种的混合文本可能为一个，也可能为多个，第一语种与第二语种的混合文本的数量由从第一语种的文本中选取的文本单元的数量以及选取的每个文本单元的翻译结果的数量决定，以下分别对第一语种与第二语种的混合文本为一个，以及第一语种与第二语种的混合文本为多个时，生成第一语种与第二语种的混合训练语音的实现过程进行介绍。

a1、第一语种与第二语种的混合文本为一个

根据第一语种与第二语种的混合文本，生成第一语种与第二语种的混合训练语音的过程包括：将第一语种与第二语种的混合文本转换为音频，获得的音频作为第一语种与第二语种的混合训练语音。

a1、第一语种与第二语种的混合文本为多个

当第一语种与第二语种的混合文本为多个时，根据多个第一语种与第二语种的混合文本生成第一语种与第二语种的混合训练语音的实现方式有多种：

在一种可能的实现方式中，可直接将每个第一语种与第二语种的混合文本转换为音频，将针对每个第一语种与第二语种的混合文本获得的每条音频作为一条第一语种与第二语种的混合训练语音。

为了提升第一语种与第二语种的混合训练语音的质量，在另一种可能的实现方式中，可利用语言模型从多个第一语种与第二语种的混合文本中确定最优的混合文本，将最优的混合文本转换为音频，将针对该最优的混合文本获得的每条音频作为一条第一语种与第二语种的混合训练语音。具体的，利用语言模型确定每个第一语种与第二语种的混合文本的得分，将得分最高的混合文本确定为最优的混合文本。

示例性的，第一语种的文本为中文文本“这是一个很好的人”，根据中文文本“这是一个很好的人”可生成两个中英混合文本，两个中英混合文本分别为“这是一个很good的人”和“这是一个很nice的人”，假设通过语言模型确定出中英混合文本“这是一个很good的人”的得分为-18.2，通过语言模型确定出中英混合文本“这是一个很nice的人”的得分为-15.3，由于中英混合文本“这是一个很nice的人”的得分高于“这是一个很good的人”的得分，因此，将“这是一个很nice的人”确定为最优的中英混合文本，进而将“这是一个很nice的人”转换为音频。

需要说明的是，本实施例可采用语音合成的方法将第一语种与第二语种的混合文本转换为音频。具体的，可预先训练多个不同人的语音合成模型，对于任一第一语种与第二语种的混合文本，将该混合文本分别输入不同人的语音合成模型中，从而针对该混合文本获得多个不同人的音频。示例性的，第一语种与第二语种的混合文本为中英混合文本“这是一个很nice的人”，可将该中英混合文本分别输入预先训练好的、100个不同人的语音合成模型中，如此可获得100个音频。

前述内容提到，训练数据集中每个第一语种与第二语种的混合训练语音对应的文本中，第二语种的文本单元具有词性标注，本申请之所以对第一语种与第二语种的混合训练语音对应的文本中第二语种的文本单元进行词性标注，是因为进行了如下考虑：

在第一语种与第二语种的混合训练语音对应的文本中，第一语种的文本单元的数量往往多于第二语种的文本单元的数量，比如，中英混合训练语音对应的文本中，中文词的个数往往多于英文词的个数(用户往往在说中文的时候夹杂个别英文词)，如果不对第二语种的文本单元进行词性标注，会导致出现第一语种的文本单元的概率远高于出现第二语种的文本单元的概率，在识别阶段很容易将本应识别为第二语种的文本单元识别为第一语种的文本单元，比如，对于中英混合语音而言，很容易将英文词识别为中文词。

为了提高第二语种的文本单元的输出概率，本申请提出给第二语种的文本单元添加词性标注。以中英混合训练语音为例，可给中英混合训练语音对应的文本中的英文词添加词性标注，可选的，可将英文词的词性设置为四种，分别为形容词、名词、动词和其他，其标记分别是“#adj”、“#n”、“#”和“#other”，英文词的词性可以通过查询英文词典获得。

示例性的，第一语种与第二语种的混合训练语音为中英混合训练语音，假设中英混合训练语音对应的文本为“这是一个很nice的人”，则为“这是一个很nice的人”中的英文词“nice”添加词性标注后，可得到“这是一个很#adj nice的人”，假设中英混合训练语音对应的文本为“我家养了一只dog”，为“我家养了一只dog”中的英文词“dog”添加词性标注后，可得到“我家养了一只#n dog”，假设中英混合训练语音对应的文本为“我想throw away这些垃圾”，则为“我想throw away这些垃圾”中的英文词“throw away”添加词性标注后，可得到“我想#v throw away这些垃圾”。

需要说的是，为第一语种与第二语种的混合文本中第二语种的文本单元增加词性标注之后，能够大幅提升第一语种的文本单元切换为第二语种的文本单元的转移概率，这里的转移概率体现的是双语种混合语言模型的得分。示例性的，中英文混合文本中“很”->“nice”这种组合在训练语音对应的文本中出现的频率很少，因此，其转移概率也很小，转移概率太小会导致“nice”这个词识别不出来，增加标记之后，训练语音对应的文本中会出现大量的“很”->“#adj”组合，因此，“很”->“#adj”的转移概率很高，同时，训练语音对应的文本中也会出现很多“#adj”->“nice”组合，因此，“#adj”->“nice”的转移概率也很高，“很”->“nice”的转移概率通过将“很”->“#adj”的转移概率与“#adj”->“nice”的转移概率相乘得到，因此，“很”->“nice”的转移概率也会较高。另外，将第二语种的文本单元按词性分类，提高了第二语种的文本单元的识别准确率。

需要说明是，由于第一语种的混合训练语音对应的文本进行了词性标注，因此，在对目标语音进行识别时，目标语音的目标识别文本中也会出现词性标记，在获得目标语音的目标识别文本后，将目标识别文本中的词性标记去除即可。

接下来对上述实施例中提及的“利用训练语音及该训练语音对应的标注文本，训练双语种混合语音识别模型”的过程进行介绍。

请参阅图4，示出了利用训练语音及该训练语音对应的标注文本，训练双语种混合语音识别模型的流程示意图，可以包括：

步骤S401：通过训练语音、预先获得的多个第二语种高频词以及双语种混合语音识别模型，确定训练语音对应的识别文本和该识别文本中每个文本单元的语种。

在一种可能的实现方式中，双语种混合语音识别模型可以为encoder-decoder模型，该模型可以包括编码部分、注意力部分和解码部分，请参阅图5，示出了该模型的拓扑结构图，该模型的输入为对训练语音提取的声学特征x₁x₂…x_T和多个高频词z₁z₂…z_N分别对应的词向量，其中，T为训练语音的总帧数，N为高频词的个数，该模型的输出为文本单元序列y₁y₂…y_U和该文本单元序中每个文本单元的语种，其中，U为文本单元的个数。

具体的，步骤S401的实现过程可以包括：

步骤S4011、对训练语音提取声学特征，并获取预先获得的多个第二语种高频词分别对应的词向量。

在一种可能的实现方式中，第二语种的高频词可在训练数据集中第一语种与第二语种的混合语音对应的标注文本中提取。

步骤S4011、通过双语种混合语音识别模型的语音编码模块对声学特征进行编码，通过双语种混合语音识别模型的高频词编码模块对多个第二语种高频词分别对应的词向量进行编码。

其中，语音编码模块输出的是声学向量，语音编码模块的功能是将声学特征x₁x₂…x_T变换成声学向量h^x，可选的，语音编码模块可以使用5层双向lstm，输出h^x为T*512大小的二维矩阵；高频词编码模块将输入的各个高频词的词向量编码为更具有区分性的词向量，可选的，高频词编码模块可以使用一层单向lstm，单向lstm的输入为z₁z₂…z_N中每个高频词的词向量，输出为h^z，h^z表示N个第二语种高频词的lstm输出的组合。需要说明的是，假设第二语种高频词为英文词，则此处的英文词可以为一个英文单词，也可以为一个英文词组。

步骤S4012、通过双语种混合语音识别模型的语音注意力模块和语音编码模块输出的向量，确定训练语音的每个文本单元的第一注意力向量，通过双语种混合语音识别模型的高频词注意力模块和高频词编码模块输出的向量，确定训练语音对应的文本中每个文本单元的第二注意力向量。

语音注意力模块的计算公式如下所示：

其中，

为lstm的隐层输出，

为第u个文本单元的第一注意力向量，y_u-1为已经预测的第u-1个文本单元的embedding向量，

通过矩阵运算将

和h_t变换成一个U*T的二维矩阵，

通过在

的时间维度上计算softmax，得到第u个文本单元的第一注意力系数，最后，

与h_t点乘得到第u个文本单元的第一注意力向量

高频词注意力模块确定第u个文本单元的第二注意力向量

的方式与上述语音注意力模块确定第u个文本单元的第一注意力向量

的方式类似，如下式(2)所示：

其中，

为lstm的隐层输出，

为第u个文本单元的第二注意力向量，y_u-1为已经预测的第u-1个文本单元的embedding向量，

通过矩阵运算将

和h_z变换成一个U*N的二维矩阵，

通过在

的时间维度上计算softmax，得到第u个文本单元的第二注意力系数，最后，

与h_z点乘得到第u个文本单元的第二注意力向量

需要说明的是，本实施例中的双语种混合语音识别模型中设置高频词编码模块和高频词注意力模块的目的是，使双语种混合语音识别模型在预测文本单元时，不仅关注到输入语音的声学特征x₁x₂…x_T，而且关注到多个第二语种高频词的信息。

步骤S4013、将训练语音对应的注意力向量与多个第二语种高频词对应的注意力向量拼接，获得拼接后的向量。

步骤S4014、通过双语种混合语音识别模型的解码模块、每个文本单元的第一注意力向量和第二注意力向量，确定训练语音对应的识别文本和该识别文本中每个文本单元的语种。

具体的，将每个文本单元的第一注意力向量和第二注意力向量拼接，拼接后的向量输入双语种混合语音识别模型的解码模块进行解码，解码结果经文本单元分类层和语种分类层，可获得每个文本单元和每个文本单元的语种，即获得训练语音对应的识别文本和该识别文本中每个文本单元的语种。

步骤S402：根据训练语音对应的识别文本和该识别文本中每个文本单元的语种，以及训练语音对应的标注文本，确定双语种混合语音识别模型的预测损失。

具体的，步骤S402的实现过程可以包括：

步骤S4021、根据训练语音对应的识别文本中的每个文本单元和训练语音对应的标注文本中的每个文本单元，确定文本单元预测损失。

步骤S4022、根据训练语音对应的识别文本中每个文本单元的语种和训练语音对应的标注文本中每个文本单元标注的语种，确定语种预测损失。

步骤S4023、将文本单元预测损失与语种预测损失融合，获得双语种混合语音识别模型的预测损失。

具体的，可将文本单元预测损失与语种预测损失求和，获得双语种混合语音识别模型的预测损失。

步骤S403：根据双语种混合语音识别模型的预测损失，更新双语种混合语音识别模型的参数。

经由上述训练方式对双语种混合语音识别模型训练完成后，便可利用双语种混合语音识别模型对目标语音进行识别。

在对目标语音进行识别时，可先对目标语音提取声学特征，并确定基于识别场景预先获得的多个高频词的词向量，然后将对目标语音提取的声学特征和多个高频词的词向量输入双语种混合语音识别模型，从而获得多个候选识别文本和多个候选识别文本分别对应的得分，进而根据多个候选识别文本分别对应的得分，从多个候选识别文本中确定出目标语音的目标识别文本。

本申请实施例可根据第一语种的文本自动高效地生成第一语种与第二语种的混合训练语音，如此可获得大量的双语种混合语音，利用大量的双语种混合文本对双语种混合语音识别模型进行训练，可获得能够对双语种语音具有较好识别效果的双语种混合语音识别模型，另外，在模型中设置语种分类层提高了模型对第一语种的文本单元和第二语种文本单元的区分能力，对双语种混合训练语音对应的文本进行词性标注，提升了双语种混合语音识别模型的识别效果，在训练时引入高频词增强了第二语种文本单元的输出概率，进一步提升了双语种混合语音识别模型的识别效果。

下面对本申请实施例提供的双语种混合语音识别装置进行描述，下文描述的双语种混合语音识别装置与上文描述的双语种混合语音识别方法可相互对应参照。

请参阅图6，示出了本申请实施例提供的一种双语种混合语音识别装置的结构示意图，该双语种混合语音识别装置可以包括：语音获取模块601、语音识别模块602和识别文本确定模块603。

语音获取模块601，用于获取目标语音，其中，所述目标语音为第一语种与第二语种的混合语音。

语音识别模块602，用于利用预先建立的双语种混合语音识别模型对所述目标语音进行识别，获得多个候选识别文本以及所述多个候选识别文本分别对应的得分。

其中，所述双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率，任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定。

识别文本确定模块603，用于根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本。

本申请实施例提供的双语种混合语音识别装置，利用预先建立的双语种混合语音识别模型对双语种混合语音进行识别，相比于现有技术中基于单一语种语音识别模型的识别方案，显著提升了双语种混合语音的识别效果，用户体验较好。

在一种可能的实现方式中，上述实施例中的识别文本确定模块603，具体用于将所述多个候选识别文本中，得分最高的候选识别文本确定为所述目标语音的目标识别文本。

在另一种可能的实现方式中，上述实施例中的识别文本确定模块603包括：用户交互子模块和识别文本确定子模块。

用户交互子模块，用于根据所述多个候选识别文本中各候选识别文本所涉及的语种以及所述多个候选识别文本分别对应的得分与用户交互。

识别文本确定子模块，用于根据交互结果从所述多个候选识别文本中确定出所述目标语音的目标识别文本。

在一种可能的实现方式中，任一候选识别文本对应的得分包括：该候选识别文本的整体得分和该候选识别文本中每个文本单元的得分，该候选识别文本的整体得分根据该候选识别文本中各个文本单元的得分确定，该候选识别文本中任一文本单元的得分根据该文本单元的文本分类概率和该文本单元的语种分类概率确定；

上述的用户交互子模块，具体用于当所述多个候选识别文本中存在满足预设条件的候选识别文本，输出用于提示用户确认所述目标语音是否为双语种混合语音的提示信息。

在一种可能的实现方式中，上述的识别文本确定子模块，具体用于当用户确认所述目标语音为双语种混合语音时，将所述满足预设条件的候选识别文本中，整体得分最高的候选识别文本确定为所述目标语音的目标识别文本，当用户确认所述目标语音不为双语种混合语音时，将所述多个候选识别文本中，整体得分最高的候选识别文本确定为所述目标语音的目标识别文本。

上述实施例提供的双语种混合语音识别装置还可以包括模型构建模块。

模型构建模块可以包括：训练语音获取模块和模型训练模块。

训练语音获取模块，用于从预先构建的训练数据集中获取训练语音。

其中，所述训练数据集中包括第一语种的训练语音、第二语种的训练语音，以及第一语种与第二语种的混合训练语音；

模型训练模块，用于利用获取的训练语音以及该训练语音对应的标注文本训练双语种混合语音识别模型。

其中，一训练语音对应的标注文本为对该训练语音对应的文本进行标注得到，每条训练语音对应的文本中的每个文本单元标注有语种，每条第一语种与第二语种的混合训练语音对应的文本中，第二语种的文本单元标注有词性。

在一种可能的实现方式中，训练数据集中第一语种与第二语种的混合训练语音根据第一语种的文本生成。上述实施例提供的双语种混合语音识别装置还可以包括混合训练语音生成模块。

混合训练语音生成模块可以包括：混合文本确定模块和混合训练语音生成模块。

混合文本确定模块，用于将所述第一语种的文本处理成第一语种与第二语种的混合文本。

混合训练语音生成模块，用于根据所述第一语种与第二语种的混合文本，生成所述第一语种与第二语种的混合训练语音。

在一种可能的实现方式中，上述的混合文本确定模块包括文本单元选取子模块、翻译子模块和混合文本生成子模块。

文本单元选取子模块，用于从所述第一语种的文本中选取至少一个文本单元。

翻译子模块，用于将选取的第一语种的文本单元翻译成第二语种的文本单元，针对每个第一语种的文本单元获得至少一个第二语种的文本单元。

混合文本生成子模块，用于根据所述第一语种的文本和所述至少一个第二语种的文本单元，生成至少一个第一语种与第二语种的混合文本。

在一种可能的实现方式中，混合文本生成子模块，具体用于当所述第一语种与第二语种的混合文本为一个时，将该第一语种与第二语种的混合文本转换为音频，作为一条第一语种与第二语种的混合训练语音；当所述第一语种与第二语种的混合文本为多个时，分别将每个第一语种与第二语种的混合文本转换为音频，获得的每个音频作为一条第一语种与第二语种的混合训练语音，或者，利用语言模型从多个第一语种与第二语种的混合文本中选取最优混合文本，将所述最优混合文本转换为音频，获得一条第一语种与第二语种的混合训练语音。

在一种可能的实现方式中，上述的模型训练模块包括：识别结果确定子模块、预测损失确定子模块和参数更新子模块。

识别结果确定子模块，用于通过该训练语音、预先获得的多个第二语种高频词以及双语种混合语音识别模型，确定该训练语音对应的识别文本和该识别文本中每个文本单元的语种。

预测损失确定子模块，用于根据该训练语音对应的识别文本和该识别文本中每个文本单元的语种，以及该训练语音对应的标注文本，确定双语种混合语音识别模型的预测损失。

参数更新子模块，用于根据所述双语种混合语音识别模型的预测损失，更新双语种混合语音识别模型参数。

在一种可能的实现方式中，识别结果确定子模块，具体用于对该训练语音提取声学特征，并获取预先获得的多个第二语种高频词分别对应的词向量；通过双语种混合语音识别模型的语音编码模块，对所述声学特征进行编码，通过双语种混合语音识别模型的高频词编码模块，对所述多个第二语种高频词分别对应的词向量进行编码；通过双语种混合语音识别模型的语音注意力模块和所述语音编码模块输出的向量，确定该训练语音的每个文本单元的第一注意力向量，通过双语种混合语音识别模型的高频词编码模块和高频词注意力模块，确定训练语音的每个文本单元的第二注意力向量；通过双语种混合语音识别模型的解码模块、该训练语音的每个文本单元的第一注意力向量和第二注意力向量，确定该训练语音对应的识别文本和该识别文本中每个文本单元的语种。

在一种可能的实现方式中，预测损失确定子模块，具体用于根据该训练语音对应的识别文本中的每个文本单元以及该训练语音对应的标注文本中的每个文本单元，确定文本单元预测损失；根据该训练语音对应的识别文本中每个文本单元的语种和该训练语音对应的标注文本中每个文本单元标注的语种，确定语种预测损失；将所述文本单元预测损失与所述语种预测损失融合，获得所述双语种混合语音识别模型的预测损失。

本申请实施例还提供了一种双语种混合语音识别设备，请参阅图7，示出了该双语种混合语音识别设备的结构示意图，该双语种混合语音识别设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种双语种混合语音识别方法，其特征在于，包括：

利用预先建立的双语种混合语音识别模型对所述目标语音进行识别，获得多个候选识别文本以及所述多个候选识别文本分别对应的得分，其中，所述双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率，任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定，所述双语种混合语音识别模型至少采用第一语种和第二语种的混合训练语音、训练语音对应的标注文本以及所述标注文本标注的语种训练得到；

根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本，所述目标识别文本为所述多个候选识别文本中的一个。

2.根据权利要求1所述的双语种混合语音识别方法，其特征在于，所述根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本，包括：

3.根据权利要求2所述的双语种混合语音识别方法，其特征在于，任一候选识别文本对应的得分包括：该候选识别文本的整体得分和该候选识别文本中每个文本单元的得分，该候选识别文本的整体得分根据该候选识别文本中各个文本单元的得分确定，该候选识别文本中任一文本单元的得分根据该文本单元的文本分类概率和该文本单元的语种分类概率确定；

4.根据权利要求3所述的双语种混合语音识别方法，其特征在于，所述根据交互结果从所述多个候选识别文本中确定出所述目标语音的目标识别文本，包括：

5.根据权利要求1所述的双语种混合语音识别方法，其特征在于，预先构建双语种混合语音识别模型的过程包括：

利用获取的训练语音以及该训练语音对应的标注文本训练双语种混合语音识别模型，其中，训练语音对应的标注文本为对该训练语音对应的文本进行标注得到，每条训练语音对应的文本中的每个文本单元标注有语种，每条第一语种与第二语种的混合训练语音对应的文本中，第二语种的文本单元标注有词性。

6.根据权利要求5所述的双语种混合语音识别方法，其特征在于，所述第一语种与第二语种的混合训练语音根据第一语种的文本生成；

7.根据权利要求6所述的双语种混合语音识别方法，其特征在于，所述将所述第一语种的文本处理成第一语种与第二语种的混合文本，包括：

从所述第一语种的文本中选取至少一个文本单元；

8.根据权利要求7所述的双语种混合语音识别方法，其特征在于，所述根据所述第一语种与第二语种的混合文本，生成所述第一语种与第二语种的混合训练语音，包括：

9.根据权利要求5所述的双语种混合语音识别方法，其特征在于，所述利用获取的训练语音以及该训练语音对应的标注文本训练双语种混合语音识别模型，包括：

10.根据权利要求9所述的双语种混合语音识别方法，其特征在于，所述根据该训练语音对应的识别文本和该识别文本中每个文本单元的语种，以及该训练语音对应的标注文本，确定双语种混合语音识别模型的预测损失，包括：

11.一种双语种混合语音识别装置，其特征在于，包括：语音获取模块、语音识别模块和识别文本确定模块；

所述语音识别模块，用于利用预先建立的双语种混合语音识别模型对所述目标语音进行识别，获得多个候选识别文本以及所述多个候选识别文本分别对应的得分，其中，所述双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率，任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定，所述双语种混合语音识别模型至少采用第一语种和第二语种的混合训练语音、训练语音对应的标注文本以及所述标注文本标注的语种训练得到；

所述识别文本确定模块，用于根据所述多个候选识别文本分别对应的得分，从所述多个候选识别文本中确定出所述目标语音的目标识别文本，所述目标识别文本为所述多个候选识别文本中的一个。

12.根据权利要求11所述的双语种混合语音识别装置，其特征在于，所述识别文本确定模块包括：用户交互子模块和识别文本确定子模块；

13.一种双语种混合语音识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的双语种混合语音识别方法的各个步骤。

14.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的双语种混合语音识别方法的各个步骤。