CN111128127A

CN111128127A - 一种语音识别处理方法及装置

Info

Publication number: CN111128127A
Application number: CN201811197430.1A
Authority: CN
Inventors: 张新; 王慧君; 秦萍; 万会; 毛跃辉; 廖湖锋
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2020-05-08

Abstract

本发明提供了一种语音识别处理方法及装置，其中，该方法包括：与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；对所述语音信号进行语音特征提取；从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；根据所述习惯语音特征模型对所述语音特征进行语义识别。通过本发明，可以解决相关技术中针对用户与训练语音库有较大差别时智能家电对用户的语音识别效果差的问题，通过为不同用户建立习惯语音特征模型，提高了智能家电对用户语音的识别精度，达到提高用户体验的效果。

Description

一种语音识别处理方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别处理方法及装置。

背景技术

语音交互作为目前人机交互的主要方式，痛点有许多，其中有一个就是发音要标准。然后由于方言、生理、心理、生活方式等的差异，每个人都有自己的发音习惯，说话快慢也不一样，说话间的停顿时间往往不同，这些习惯都会对当时说话的语音频谱特征造成影响，从而降低识别系统的性能。

对于使用频率高且长期发音错误的用户来说，每次都识别不出来是多么痛苦的一件事。现有的解决方法一是基于大数据的训练语音库，二是利用人工智能进行自主学习，然而如果说话人与训练语音库有较大差别时识别性能会有严重恶化，且人工智能目前还不如想象的聪明，在复杂环境的自适应方面还有很多问题。目前，智能家电已实现与用户之间的语音交互，对于用户语音识别精度差导致智能家电与用户之间的语音交互效果差。

针对相关技术中针对用户与训练语音库有较大差别时智能家电对用户的语音识别效果差的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种语音识别处理方法及装置，以至少解决相关技术中针对用户与训练语音库有较大差别时智能家电对用户的语音识别效果差的问题。

根据本发明的一个实施例，提供了一种语音识别处理方法，包括：

与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；

对所述语音信号进行语音特征提取；

从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；

根据所述习惯语音特征模型对所述语音特征进行语义识别。

可选地，在通过所述智能家电采集用户输入的语音信号之前，所述方法还包括：

通过移动终端的显示界面向用户提供训练列表；

采集并训练用户根据所述训练列表输入的语音，得到所述用户的习惯语音特征模型；

将所述习惯语音特征模型保存到所述习惯语音特征模型数据库中。

可选地，从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型包括：

将所述语音特征依次与所述习惯语音特征模型数据库中的习惯语音特征模块进行相似度比较；

将相似度最高的习惯语音特征模型确定为与所述语音特征匹配的习惯语音特征模型。

可选地，在根据所述习惯语音特征模型对所述语音特征进行语义识别之后，所述方法还包括：

将识别出的所述语音特征对应的语义转换为控制指令；

将所述控制指令发送给所述智能家电，供所述智能家电执行与所述控制指令对应的操作。

可选地，所述习惯语音特征模型包括声学模型和语音模型，其中，所述语音模型中通过多发音字典对完全发音变异进行建模，所述声学模型通过上下文无关部分变异音子模型对部分发音变异进行建模。

根据本发明的另一个实施例，还提供了一种语音识别处理装置，包括：

采集模块，用于与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；

特征提取模块，用于对所述语音信号进行语音特征提取；

匹配模块，用于从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；

识别模块，用于根据所述习惯语音特征模型对所述语音特征进行语义识别。

可选地，所述装置还包括：

提供模块，用于通过移动终端的显示界面向用户提供训练列表；

训练模块，用于采集并训练用户根据所述训练列表输入的语音，得到所述用户的习惯语音特征模型；

可选地，所述匹配模块包括：

比较单元，用于将所述语音特征依次与所述习惯语音特征模型数据库中的习惯语音特征模块进行相似度比较；

确定单元，用于将相似度最高的习惯语音特征模型确定为与所述语音特征匹配的习惯语音特征模型。

可选地，所述装置还包括：

转换模块，用于将识别出的所述语音特征对应的语义转换为控制指令；

发送模块，用于将所述控制指令发送给所述智能家电，供所述智能家电执行与所述控制指令对应的操作。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；对所述语音信号进行语音特征提取；从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；根据所述习惯语音特征模型对所述语音特征进行语义识别，因此，可以解决相关技术中针对用户与训练语音库有较大差别时智能家电对用户的语音识别效果差的问题，通过为不同用户建立习惯语音特征模型，提高了智能家电对用户语音的识别精度，达到提高用户体验的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种语音识别处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种语音识别处理方法的流程图；

图3是根据本发明实施例的智能家电语音识别系统的示意图；

图4是根据本发明实施例的智能家电语音识别的流程图；

图5是根据本发明实施例的汉语普通话语音结构的框架图；

图6是根据本发明实施例的语音识别处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音识别处理方法的移动终端的硬件结构框图，如图1所示，移动终端10可以包括三个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

基于上述的移动终端，本实施例中提供了一种语音识别处理方法，图2是根据本发明实施例的一种语音识别处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；

步骤S204，对所述语音信号进行语音特征提取；

步骤S206，从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；

步骤S208，根据所述习惯语音特征模型对所述语音特征进行语义识别。

通过上述步骤，由于与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；对所述语音信号进行语音特征提取；从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；根据所述习惯语音特征模型对所述语音特征进行语义识别，因此，可以解决相关技术中针对用户与训练语音库有较大差别时智能家电对用户的语音识别效果差的问题，通过为不同用户建立习惯语音特征模型，提高了智能家电对用户语音的识别精度，达到提高用户体验的效果。

本发明实施例中，通过移动终端向用户展现训练模型的界面，在通过所述智能家电采集用户输入的语音信号之前，通过移动终端的显示界面向用户提供训练列表；采集并训练用户根据所述训练列表输入的语音，得到所述用户的习惯语音特征模型；将所述习惯语音特征模型保存到所述习惯语音特征模型数据库中。

可选地，从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型具体可以包括：将所述语音特征依次与所述习惯语音特征模型数据库中的习惯语音特征模块进行相似度比较；将相似度最高的习惯语音特征模型确定为与所述语音特征匹配的习惯语音特征模型。

本发明实施例中，在移动终端识别出智能家电采集的语音之后，即识别出智能家电采集的语音的语义之后，将预约转换成控制指令发送给智能家电，智能家电根据指令之后执行相应的操作。具体地，在根据所述习惯语音特征模型对所述语音特征进行语义识别之后，将识别出的所述语音特征对应的语义转换为控制指令；将所述控制指令发送给所述智能家电，供所述智能家电执行与所述控制指令对应的操作，提高了智能家电对语音的识别精度。

可选地，所述习惯语音特征模型包括声学模型和语音模型，其中，所述语音模型中通过多发音字典对完全发音变异进行建模，所述声学模型通过上下文无关部分变异音子模型对部分发音变异进行建模。训练习惯语音特征模型的过程为：采集训练结果，对语音进行信号处理和特征提取，包括对以下特征的提取：无声、爆破、噪音、送气、过渡、起始、核心、首尾，获得此用户的“声学模型”和“语音模型”，建立用户习惯语音特征模型，为更好的为不同类型的用户服务做准备。

用户在APP上进行发声测试训练(比如拟真对话、朗读等)，得到基于用户的平舌翘舌，训练停顿习惯，重音弱音、语气等发音习惯模型的语音库。当用户进行语音交互时，服务器根据用户发音习惯语音库进行说话人识别及语义校正，保证控制指令的准确性。

由于用户发音习惯不标准导致的误识别，机器自学习效果不好、代价大、时间长，多人场景下噪音导致难以识别特定用户的问题，由于采用了移动设备APP进行朗读发音训练，获取用户平翘舌、停顿、重音弱音、语气词等发音习惯，可个性化生成用户发音习惯库，自动校正错误的语义，大幅提高识别性能和操作人性化。

图3是根据本发明实施例的智能家电语音识别系统的示意图，如图3所示，移动终端通过APP与智能家电建立连接，控制智能家电；智能家电有语音识别系统和通讯模块，通过通信模块与移动终端建立通信，将采集的语音传输给移动终端，移动终端将训练得到的习惯语音特征模型保存到服务器中，供其他设备使用；也可以是移动终端将采集的用户的语音特征传输到服务器中，服务器有相关算法，训练文本得到用户的习惯语音特征模型。

图4是根据本发明实施例的智能家电语音识别的流程图，如图4所示，包括以下步骤：

步骤S402，用户在APP上进行发音习惯测试训练，基于测试结果量身定制用户习惯语音库。

发音器官和差异都以复杂的形式反映在说话人语音的波形中，使得每个人的语音都带有强烈的个人色彩，根据此进行说话人识别，还可校正已解析出来的语义。

发音习惯测试训练内容包括：图5是根据本发明实施例的汉语普通话语音结构的框架图，如图5所示，根据汉语普通话的音节结构框架细节，选择几个特征音素组成的高维特征向量作为训练内容生成训练列表(形式可以为机器与人对话，朗读，练习基本控制指令等)。训练需要通过用户发音习惯与正常发音进行相似度对比，得到差异。具体训练过程为用平时说话声叙述或朗读包含无声、爆破、噪音、送气、过渡、起始、核心、首尾的针对性题目。通过用户读取的内容进行用户的习惯擦拭训练。

例如：情景假设对话，A为APP推送，B为用户需要读的内容；朗读绕口令等。

步骤S404，发音习惯测试训练方法为：用户将训练列表中的语料参数(每一词、每一句)按照正常情况依次说一遍，经特征矢量提取，建立说话人的声谱库，按照一定的判决规则进行识别。

步骤S406，服务器基于用户发音习惯声谱模型进行说话人识别，如果判断为用户，校正用户当前语音识别结果。

在识别阶段，将输入语音的特征矢量依次与发音习惯语音库中的每个模板进行相似度比较，将相似度最高者作为用户识别结果(如未达到相似度阈值，认为语音里不存在用户，不进行语义校正)。再进行语义解析得到第一语义，根据发音习惯语音库的发音习惯对语义结果进行校正得到第二语义。服务器将第二语义转换为控制命令，发送给对应设备去执行。

例如：第一语义结果为“播放..肖幸运儿”，经过基于特定人的语义校正后得到第二语义“播放《小幸运》”。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种语音识别处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的语音识别处理装置的框图，如图6所示，包括：

采集模块62，用于与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；

特征提取模块64，用于对所述语音信号进行语音特征提取；

匹配模块66，用于从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；

识别模块68，用于根据所述习惯语音特征模型对所述语音特征进行语义识别。

可选地，所述装置还包括：

可选地，所述匹配模块包括：

可选地，所述装置还包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S11，与智能家电建立无线连接，通过所述智能家电采集用户输入的语音信号；

S12，对所述语音信号进行语音特征提取；

S13，从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型；

S14，根据所述习惯语音特征模型对所述语音特征进行语义识别。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S12，对所述语音信号进行语音特征提取；

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别处理方法，其特征在于，包括：

对所述语音信号进行语音特征提取；

根据所述习惯语音特征模型对所述语音特征进行语义识别。

2.根据权利要求1所述的方法，其特征在于，在通过所述智能家电采集用户输入的语音信号之前，所述方法还包括：

通过移动终端的显示界面向用户提供训练列表；

3.根据权利要求1所述的方法，其特征在于，从预先保存的习惯语音特征模型数据库中确定与所述语音特征匹配的习惯语音特征模型包括：

4.根据权利要求1所述的方法，其特征在于，在根据所述习惯语音特征模型对所述语音特征进行语义识别之后，所述方法还包括：

将识别出的所述语音特征对应的语义转换为控制指令；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述习惯语音特征模型包括声学模型和语音模型，其中，所述语音模型中通过多发音字典对完全发音变异进行建模，所述声学模型通过上下文无关部分变异音子模型对部分发音变异进行建模。

6.一种语音识别处理装置，其特征在于，包括：

特征提取模块，用于对所述语音信号进行语音特征提取；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述匹配模块包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。