[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111599351A - 一种语音识别方法和装置以及设备 - Google Patents

一种语音识别方法和装置以及设备 Download PDF

Info

Publication number
CN111599351A
CN111599351A CN202010363396.1A CN202010363396A CN111599351A CN 111599351 A CN111599351 A CN 111599351A CN 202010363396 A CN202010363396 A CN 202010363396A CN 111599351 A CN111599351 A CN 111599351A
Authority
CN
China
Prior art keywords
voice
spliced
voice data
classification model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010363396.1A
Other languages
English (en)
Inventor
肖龙源
李稀敏
叶志坚
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010363396.1A priority Critical patent/CN111599351A/zh
Publication of CN111599351A publication Critical patent/CN111599351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音识别方法和装置以及设备。其中,所述方法包括:获取用户的注册语音数据,和将该注册语音数据剪切成预设段数,和将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据,和构建基于该三种拼接语音数据的语音三分类模型,和对该语音三分类模型进行拼接语音识别的训练,以及根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。通过上述方式,能够实现对拼接语音的识别,能够保障语音识别的安全性。

Description

一种语音识别方法和装置以及设备
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法和装置以及设备。
背景技术
现代科学研究表明,语音不仅具有特定性,而且有相对稳定性的特点。成年以后,人的语音可保持长期相对稳定不变。实验证明,每个人的语音各不相同,无论讲话者是故意模仿他人语音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其语音却始终不同。
在现实生活的很多场景中,经常需要对用户进行语音识别例如通过语音识别来登录应用程序或通过语音识别来登录终端设备等,但是会有一些不法人员通过将非本人的其他用户的语音进行剪切,进而拼接出特定的语音内容的拼接语音,试图采用该拼接语音来仿冒真实用户的身份来进行语音验证,以此来非法获取利益或者进行一些非法操作等,无法保障语音识别的安全性。
然而,现有的语音识别方案无法实现对拼接语音的识别,无法保障语音识别的安全性。
发明内容
有鉴于此,本发明的目的在于提出一种语音识别方法和装置以及设备,能够实现对拼接语音的识别,能够保障语音识别的安全性。
根据本发明的一个方面,提供一种语音识别方法,包括:获取用户的注册语音数据;将所述注册语音数据剪切成预设段数;将所述剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据;构建基于所述三种拼接语音数据的语音三分类模型;对所述语音三分类模型进行拼接语音识别的训练;根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
其中,所述构建基于所述三种拼接语音数据的语音三分类模型,包括:采用分别调用所述三种拼接语音数据的声纹特征和音调特征,和分别对所述声纹特征和音调特征进行卷积神经网络和线性预测分析,并将所述经卷积神经网络和所述线性预测分析后的声纹特征和音调特征分别置入所述三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于所述三种拼接语音数据的语音三分类模型。
其中,所述对所述语音三分类模型进行拼接语音识别的训练,包括:采用通过特征归一化对所述语音三分类模型进行归一化操作,和通过长短期记忆网络对所述经归一化操作后的语音三分类模型进行拼接语音识别的训练。
其中,所述根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别,包括:根据所述经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。
其中,在所述根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别之后,还包括:消除所述经拼接语音识别的训练后的语音三分类模型中的噪声。
根据本发明的另一个方面,提供一种语音识别装置,包括:获取模块、剪切模块、拼接模块、构建模块、训练模块和识别模块;所述获取模块,用于获取用户的注册语音数据;所述剪切模块,用于将所述注册语音数据剪切成预设段数;所述拼接模块,用于将所述剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据;所述构建模块,用于构建基于所述三种拼接语音数据的语音三分类模型;所述训练模块,用于对所述语音三分类模型进行拼接语音识别的训练;所述识别模块,用于根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
其中,所述构建模块,具体用于:采用分别调用所述三种拼接语音数据的声纹特征和音调特征,和分别对所述声纹特征和音调特征进行、卷积神经网络和线性预测分析,并将所述经卷积神经网络和所述线性预测分析后的声纹特征和音调特征分别置入所述三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于所述三种拼接语音数据的语音三分类模型。
其中,所述训练模块,具体用于:采用通过特征归一化对所述语音三分类模型进行归一化操作,和通过长短期记忆网络对所述经归一化操作后的语音三分类模型进行拼接语音识别的训练。
其中,所述识别模块,具体用于:根据所述经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。
其中,所述语音识别装置,还包括:消除模块;所述消除模块,用于消除所述经拼接语音识别的训练后的语音三分类模型中的噪声。
根据本发明的又一个方面,提供一种语音识别设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的语音识别方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的语音识别方法。
可以发现,以上方案,可以获取用户的注册语音数据,和可以将该注册语音数据剪切成预设段数,和可以将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据,和可以构建基于该三种拼接语音数据的语音三分类模型,和可以对该语音三分类模型进行拼接语音识别的训练,以及可以根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
进一步的,以上方案,可以采用分别调用该三种拼接语音数据的声纹特征和音调特征,和分别对该声纹特征和音调特征进行卷积神经网络和线性预测分析,并将该经卷积神经网络和该线性预测分析后的声纹特征和音调特征分别置入该三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于该三种拼接语音数据的语音三分类模型,这样的好处是因为该经卷积神经网络和该线性预测分析能够根据声纹特征和音调特征预测语音数据的上下文信息,能够实现通过该语音三分类模型提高对语音数据的上下文信息的预测,进而能够提高对语音数据进行拼接语音的识别的准确率。
进一步的,以上方案,可以采用通过特征归一化对该语音三分类模型进行归一化操作,和通过长短期记忆网络对该经归一化操作后的语音三分类模型进行拼接语音识别的训练,这样的好处是能够实现通过归一化操作使得该语音三分类模型待识别的语音数据被限定在预设的的范围内,从而能够消除待识别的语音数据的奇异样本数据导致的不良影响,而且经该长短期记忆网络训练后的语音三分类模型能够使待识别的语音数据的特征更加突出,能够提高对语音数据进行拼接语音的识别的准确率。
进一步的,以上方案,可以根据该经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
进一步的,以上方案,可以消除该经拼接语音识别的训练后的语音三分类模型中的噪声,这样的好处是能够实现提高对语音数据进行拼接语音的识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明语音识别方法一实施例的流程示意图;
图2是本发明语音识别方法另一实施例的流程示意图;
图3是本发明语音识别装置一实施例的结构示意图;
图4是本发明语音识别装置另一实施例的结构示意图;
图5是本发明语音识别设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种语音识别方法,能够实现对拼接语音的识别,能够保障语音识别的安全性。
请参见图1,图1是本发明语音识别方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取用户的注册语音数据。
在本实施例中,该注册语音数据可以是注册应用程序时的注册语音,也可以是注册终端设备时的注册语音等,本发明不加以限定。
在本实施例中,可以通过应用程序中的注册信息来获取用户的注册语音数据,也可以通过终端设备中的注册信息来获取用户的注册语音数据等,本发明不加以限定。
在本实施例中,该注册语音数据可以是中文语音例如上班、开心等,也可以是英文语音例如hello、red等,本发明不加以限定。
S102:将该注册语音数据剪切成预设段数。
在本实施例中,可以将该注册语音数据剪切成预设的2段,也可以将该注册语音数据剪切成预设的3段,还可以将该注册语音数据剪切成预设的其它段数等,本发明不加以限定。
S103:将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据。
在本实施例中,可以将该剪切成预设段数的语音数据按原顺序进行拼接得到原顺序拼接语音数据,和可以将该剪切成预设段数的语音数据按反顺序进行拼接得到反顺序拼接语音数据,和可以该剪切成预设段数的语音数据按乱顺序进行拼接得到乱顺序拼接语音数据等,本发明不加以限定。
S104:构建基于该三种拼接语音数据的语音三分类模型。
其中,该构建基于该三种拼接语音数据的语音三分类模型,可以包括:
采用分别调用该三种拼接语音数据的声纹特征和音调特征,和分别对该声纹特征和音调特征进行CNN(Convolutional Neural Networks,卷积神经网络)和LPC(LinearPredictive Coding,线性预测分析)分析,并将该经卷积神经网络和该线性预测分析后的声纹特征和音调特征分别置入该三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于该三种拼接语音数据的语音三分类模型,这样的好处是因为该经卷积神经网络和该线性预测分析能够根据声纹特征和音调特征预测语音数据的上下文信息,能够实现通过该语音三分类模型提高对语音数据的上下文信息的预测,进而能够提高对语音数据进行拼接语音的识别的准确率。
S105:对该语音三分类模型进行拼接语音识别的训练。
其中,该对该语音三分类模型进行拼接语音识别的训练,可以包括:
采用通过特征归一化对该语音三分类模型进行归一化操作,和通过长短期记忆网络对该经归一化操作后的语音三分类模型进行拼接语音识别的训练,这样的好处是能够实现通过归一化操作使得该语音三分类模型待识别的语音数据被限定在预设的的范围内,从而能够消除待识别的语音数据的奇异样本数据导致的不良影响,而且经该长短期记忆网络训练后的语音三分类模型能够使待识别的语音数据的特征更加突出,能够提高对语音数据进行拼接语音的识别的准确率。
在本实施例中,该长短期记忆网络可以包括两层长短期记忆层和两层全连接层,也可以包括三层长短期记忆层和三层全连接层,还可以包括四层长短期记忆层和四层全连接层,又可以包括五层长短期记忆层和五层全连接层等,本发明不加以限定。
S106:根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
其中,该根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别,可以包括:
根据该经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
其中,在该根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别之后,还可以包括:
消除该经拼接语音识别的训练后的语音三分类模型中的噪声,这样的好处是能够实现提高对语音数据进行拼接语音的识别的准确率。
可以发现,在本实施例中,可以获取用户的注册语音数据,和可以将该注册语音数据剪切成预设段数,和可以将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据,和可以构建基于该三种拼接语音数据的语音三分类模型,和可以对该语音三分类模型进行拼接语音识别的训练,以及可以根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
进一步的,在本实施例中,可以采用分别调用该三种拼接语音数据的声纹特征和音调特征,和分别对该声纹特征和音调特征进行卷积神经网络和线性预测分析,并将该经卷积神经网络和该线性预测分析后的声纹特征和音调特征分别置入该三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于该三种拼接语音数据的语音三分类模型,这样的好处是因为该经卷积神经网络和该线性预测分析能够根据声纹特征和音调特征预测语音数据的上下文信息,能够实现通过该语音三分类模型提高对语音数据的上下文信息的预测,进而能够提高对语音数据进行拼接语音的识别的准确率。
进一步的,在本实施例中,可以采用通过特征归一化对该语音三分类模型进行归一化操作,和通过长短期记忆网络对该经归一化操作后的语音三分类模型进行拼接语音识别的训练,这样的好处是能够实现通过归一化操作使得该语音三分类模型待识别的语音数据被限定在预设的的范围内,从而能够消除待识别的语音数据的奇异样本数据导致的不良影响,而且经该长短期记忆网络训练后的语音三分类模型能够使待识别的语音数据的特征更加突出,能够提高对语音数据进行拼接语音的识别的准确率。
进一步的,在本实施例中,可以根据该经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
请参见图2,图2是本发明语音识别方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取用户的注册语音数据。
可如上S101所述,在此不作赘述。
S202:将该注册语音数据剪切成预设段数。
可如上S102所述,在此不作赘述。
S203:将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据。
可如上S103所述,在此不作赘述。
S204:构建基于该三种拼接语音数据的语音三分类模型。
可如上S104所述,在此不作赘述。
S205:对该语音三分类模型进行拼接语音识别的训练。
可如上S105所述,在此不作赘述。
S206:根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
可如上S106所述,在此不作赘述。
S207:消除该经拼接语音识别的训练后的语音三分类模型中的噪声。
可以发现,在本实施例中,可以消除该经拼接语音识别的训练后的语音三分类模型中的噪声,这样的好处是能够实现提高对语音数据进行拼接语音的识别的准确率。
本发明还提供一种语音识别装置,能够实现对拼接语音的识别,能够保障语音识别的安全性。
请参见图3,图3是本发明语音识别装置一实施例的结构示意图。本实施例中,该语音识别装置30包括获取模块31、剪切模块32、拼接模块33、构建模块34、训练模块35和识别模块36。
该获取模块31,用于获取用户的注册语音数据。
该剪切模块32,用于将该注册语音数据剪切成预设段数。
该拼接模块33,用于将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据。
该构建模块34,用于构建基于该三种拼接语音数据的语音三分类模型。
该训练模块35,用于对该语音三分类模型进行拼接语音识别的训练。
该识别模块36,用于根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
可选地,该构建模块34,可以具体用于:
采用分别调用该三种拼接语音数据的声纹特征和音调特征,和分别对该声纹特征和音调特征进行、卷积神经网络和线性预测分析,并将该经卷积神经网络和该线性预测分析后的声纹特征和音调特征分别置入该三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于该三种拼接语音数据的语音三分类模型。
可选地,该训练模块35,可以具体用于:
采用通过特征归一化对该语音三分类模型进行归一化操作,和通过长短期记忆网络对该经归一化操作后的语音三分类模型进行拼接语音识别的训练。
可选地,该识别模块36,可以具体用于:
根据该经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。
请参见图4,图4是本发明语音识别装置另一实施例的结构示意图。区别于上一实施例,本实施例所述语音识别装置40还包括消除模块41。
该消除模块41,用于消除该经拼接语音识别的训练后的语音三分类模型中的噪声。
该语音识别装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种语音识别设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的语音识别方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以获取用户的注册语音数据,和可以将该注册语音数据剪切成预设段数,和可以将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据,和可以构建基于该三种拼接语音数据的语音三分类模型,和可以对该语音三分类模型进行拼接语音识别的训练,以及可以根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
进一步的,以上方案,可以采用分别调用该三种拼接语音数据的声纹特征和音调特征,和分别对该声纹特征和音调特征进行卷积神经网络和线性预测分析,并将该经卷积神经网络和该线性预测分析后的声纹特征和音调特征分别置入该三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于该三种拼接语音数据的语音三分类模型,这样的好处是因为该经卷积神经网络和该线性预测分析能够根据声纹特征和音调特征预测语音数据的上下文信息,能够实现通过该语音三分类模型提高对语音数据的上下文信息的预测,进而能够提高对语音数据进行拼接语音的识别的准确率。
进一步的,以上方案,可以采用通过特征归一化对该语音三分类模型进行归一化操作,和通过长短期记忆网络对该经归一化操作后的语音三分类模型进行拼接语音识别的训练,这样的好处是能够实现通过归一化操作使得该语音三分类模型待识别的语音数据被限定在预设的的范围内,从而能够消除待识别的语音数据的奇异样本数据导致的不良影响,而且经该长短期记忆网络训练后的语音三分类模型能够使待识别的语音数据的特征更加突出,能够提高对语音数据进行拼接语音的识别的准确率。
进一步的,以上方案,可以根据该经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。
进一步的,以上方案,可以消除该经拼接语音识别的训练后的语音三分类模型中的噪声,这样的好处是能够实现提高对语音数据进行拼接语音的识别的准确率。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取用户的注册语音数据;
将所述注册语音数据剪切成预设段数;
将所述剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据;
构建基于所述三种拼接语音数据的语音三分类模型;
对所述语音三分类模型进行拼接语音识别的训练;
根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
2.如权利要求1所述的语音识别方法,其特征在于,所述构建基于所述三种拼接语音数据的语音三分类模型,包括:
采用分别调用所述三种拼接语音数据的声纹特征和音调特征,和分别对所述声纹特征和音调特征进行卷积神经网络和线性预测分析,并将所述经卷积神经网络和所述线性预测分析后的声纹特征和音调特征分别置入所述三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于所述三种拼接语音数据的语音三分类模型。
3.如权利要求1所述的语音识别方法,其特征在于,所述对所述语音三分类模型进行拼接语音识别的训练,包括:
采用通过特征归一化对所述语音三分类模型进行归一化操作,和通过长短期记忆网络对所述经归一化操作后的语音三分类模型进行拼接语音识别的训练。
4.如权利要求1所述的语音识别方法,其特征在于,所述根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别,包括:
根据所述经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。
5.如权利要求1所述的语音识别方法,其特征在于,在所述根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别之后,还包括:
消除所述经拼接语音识别的训练后的语音三分类模型中的噪声。
6.一种语音识别装置,其特征在于,包括:
获取模块、剪切模块、拼接模块、构建模块、训练模块和识别模块;
所述获取模块,用于获取用户的注册语音数据;
所述剪切模块,用于将所述注册语音数据剪切成预设段数;
所述拼接模块,用于将所述剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据;
所述构建模块,用于构建基于所述三种拼接语音数据的语音三分类模型;
所述训练模块,用于对所述语音三分类模型进行拼接语音识别的训练;
所述识别模块,用于根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼接语音的识别。
7.如权利要求6所述的语音识别装置,其特征在于,所述构建模块,具体用于:
采用分别调用所述三种拼接语音数据的声纹特征和音调特征,和分别对所述声纹特征和音调特征进行、卷积神经网络和线性预测分析,并将所述经卷积神经网络和所述线性预测分析后的声纹特征和音调特征分别置入所述三种拼接语音数据来替换原声纹特征和原音调特征的方式,构建基于所述三种拼接语音数据的语音三分类模型。
8.如权利要求6所述的语音识别装置,其特征在于,所述训练模块,具体用于:
采用通过特征归一化对所述语音三分类模型进行归一化操作,和通过长短期记忆网络对所述经归一化操作后的语音三分类模型进行拼接语音识别的训练。
9.如权利要求6所述的语音识别装置,其特征在于,所述识别模块,具体用于:
根据所述经拼接语音识别的训练后的语音三分类模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。
10.如权利要求6所述的语音识别装置,其特征在于,所述语音识别装置,还包括:
消除模块;
所述消除模块,用于消除所述经拼接语音识别的训练后的语音三分类模型中的噪声。
CN202010363396.1A 2020-04-30 2020-04-30 一种语音识别方法和装置以及设备 Pending CN111599351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363396.1A CN111599351A (zh) 2020-04-30 2020-04-30 一种语音识别方法和装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363396.1A CN111599351A (zh) 2020-04-30 2020-04-30 一种语音识别方法和装置以及设备

Publications (1)

Publication Number Publication Date
CN111599351A true CN111599351A (zh) 2020-08-28

Family

ID=72182230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363396.1A Pending CN111599351A (zh) 2020-04-30 2020-04-30 一种语音识别方法和装置以及设备

Country Status (1)

Country Link
CN (1) CN111599351A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170358306A1 (en) * 2016-06-13 2017-12-14 Alibaba Group Holding Limited Neural network-based voiceprint information extraction method and apparatus
CN107680600A (zh) * 2017-09-11 2018-02-09 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN108550364A (zh) * 2018-04-20 2018-09-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110706710A (zh) * 2018-06-25 2020-01-17 普天信息技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN111009238A (zh) * 2020-01-02 2020-04-14 厦门快商通科技股份有限公司 一种拼接语音的识别方法和装置以及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170358306A1 (en) * 2016-06-13 2017-12-14 Alibaba Group Holding Limited Neural network-based voiceprint information extraction method and apparatus
CN107680600A (zh) * 2017-09-11 2018-02-09 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN108550364A (zh) * 2018-04-20 2018-09-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110706710A (zh) * 2018-06-25 2020-01-17 普天信息技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN111009238A (zh) * 2020-01-02 2020-04-14 厦门快商通科技股份有限公司 一种拼接语音的识别方法和装置以及设备

Similar Documents

Publication Publication Date Title
JP6613347B2 (ja) 情報をプッシュする方法及び装置
KR101963993B1 (ko) 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN100351899C (zh) 网络环境中语音处理的中间体
CN106233374B (zh) 用于检测用户定义的关键字的关键字模型生成
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN111009238B (zh) 一种拼接语音的识别方法和装置以及设备
CN106683680A (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
CN110942763B (zh) 语音识别方法及装置
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN110853621B (zh) 语音顺滑方法、装置、电子设备及计算机存储介质
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
KR102415519B1 (ko) 인공지능 음성의 컴퓨팅 탐지 장치
CN110706710A (zh) 一种语音识别方法、装置、电子设备及存储介质
CN106528715B (zh) 一种音频内容校核方法及装置
CN107886940B (zh) 语音翻译处理方法及装置
CN111599351A (zh) 一种语音识别方法和装置以及设备
CN110570843B (zh) 一种用户语音识别方法和装置
CN111128234B (zh) 一种拼接语音的识别检测方法和装置以及设备
KR20210117827A (ko) 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법
CN111522937A (zh) 话术推荐方法、装置和电子设备
CN111933117A (zh) 语音验证方法和装置、存储介质及电子装置
KR102221236B1 (ko) 음성을 제공하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828

RJ01 Rejection of invention patent application after publication