CN110197658B - 语音处理方法、装置以及电子设备 - Google Patents
语音处理方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN110197658B CN110197658B CN201910463203.7A CN201910463203A CN110197658B CN 110197658 B CN110197658 B CN 110197658B CN 201910463203 A CN201910463203 A CN 201910463203A CN 110197658 B CN110197658 B CN 110197658B
- Authority
- CN
- China
- Prior art keywords
- acoustic model
- layer
- training
- training sample
- branches
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 166
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请提出一种语音处理方法、装置以及电子设备,其中,方法包括:采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层;对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音处理方法、装置以及电子设备。
背景技术
随着语音识别技术的飞速发展,语音识别技术得到广泛地应用,其中,语音识别系统在智能终端设备以及智能家居中的应用正在日益改变着人类的生活和生产方式。例如,用户可以通过手机助手控制智能手机。
但是,现有的语音识别系统均采用单头声学模型识别语音,导致不用的硬件设备采集的语音存在差异时,语音识别的准确率较低的技术问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请实施例提出一种语音处理方法,通过采用各类型的训练样本对第二声学模型的各分支进行训练,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度,解决了现有技术中不同硬件设备采集的音频存在差异的情况下,采用同一个单头模型识别导致识别不准确的技术问题。
本申请第一方面实施例提出了一种语音处理方法,包括:
采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;
对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。
作为本申请第一种可能的实现方式,所述训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,包括:
采用所述第二声学模型的编码层对所述训练样本中的原始音频特征进行编码;
根据所述训练样本的类型,将对应的编码输入匹配所述类型的分支,得到输出发音信息;
根据所述参考发音信息与所述输出发音信息之间的差异,对所述匹配所述类型的分支进行参数调整,以使所述差异最小化。
作为本申请第二种可能的实现方式,所述原始音频特征,包括滤波器FBank特征。
作为本申请第三种可能的实现方式,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练之前,还包括:
根据所述训练样本的来源和/或适用业务场景划分类别。
作为本申请第四种可能的实现方式,所述第一声学模型还包括注意力层;
所述第二声学模型相应包括所述注意力层。
作为本申请第五种可能的实现方式,所述采用经过训练的第二声学模型进行语音识别,包括:
采用所述第二声学模型的编码层对待识别的目标语音进行编码;
根据所述目标语音的类型,从所述第二声学模型的多个分支中确定目标分支;
将所述目标语音的编码,输入所述目标分支声学得到对应的发音信息。
本申请实施例的语音处理方法,采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层,对解码层和输出层复制,得到多个分支,每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度。
本申请第二方面实施例提出了一种语音处理装置,包括:
第一训练模块,用于采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;
处理模块,用于对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
生成模块,用于根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
第二训练模块,用于采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。
本申请实施例的语音处理装置,采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层,对解码层和输出层复制,得到多个分支,每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,能够准确识别不同类型的语音,从而提高了语音识别的准确度。
本申请第三方面实施例提出了一种电子设备,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例中所述的语音处理方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所述的语音处理方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种语音处理方法的流程示意图;
图2为本申请实施例所提供的一种第一声学模型的结构示意图;
图3为本申请实施例所提供的一种第二声学模型的结构示意图;
图4为本申请实施例所提供的一种模型训练方法的流程示意图;
图5为本申请实施例所提供的另一种语音处理方法的流程示意图;
图6为本申请实施例所提供的一种语音处理装置的结构示意图;以及
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请针对现有技术中同一个单头声学模型识别多种类型的音频时准确率较低的技术问题,提出了一种语音处理方法。
本申请实施例的语音处理方法,采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层;对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。
下面参考附图描述本申请实施例的语音处理方法、装置以及电子设备。
图1为本申请实施例所提供的一种语音处理方法的流程示意图。
本申请实施例以该语音处理方法被配置于语音处理装置中来举例说明,该语音处理装置可以应用于任一电子设备中,以使该电子设备可以执行语音处理功能。
其中,电子设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该语音处理方法包括以下步骤:
步骤101,采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层。
其中,声学模型,是语音处理中最为重要的部分之一,本实施例中为了便于与下文所述的声学模型进行区分,故称为第一声学模型。第一声学模型包括编码层、解码层和输出层。
本申请实施例中,训练样本集,可以是从服务器端下载的,也可以是用户自行设计的训练样本集,在此不做限定。
需要说明的是,用户自行设计的训练样本集,可以包括采用不同的硬件设备采集不同人的语音数据,例如,采集语音的对象可以老人、成年男女、儿童;也可以包括同一硬件设备采集的同一个人的语音数据;也可以包括同一硬件设备在不同的声音环境下采集的噪声水平不同的语音数据;也可以包括从服务器下载的语音数据,等等。总之,尽可能的使得训练样本集包含多种样本类型。
具体地,首先将训练样本集输入随机初始化参数的第一声学模型,第一声学模型是双向整句训练的,也就是说,在训练过程中,第一声学模型能够学习到语音前后文的信息,因此,经过训练后的第一声学模型的泛化能力更强,能够接受多种类型的训练样本。
作为一种示例,参见图2,图2为本申请实施例提供的一种第一声学模型的结构示意图。如图2所示,第一声学模型包括:输入层、编码层、注意力层、解码层以及输出层。
作为一种可能的情况,第一声学模型可以为transformer模型,相较于现有技术中的基于损失函数语音识别的深度学习声学模型,transformer模型没有卷积神经网络以及长短记忆网络等网络结构,因此,在相同训练环境下,训练样本相同的情况下,transformer模型的训练速度更快。当然,本实施例中也可以为其他声学模型,在此不做限定。
步骤102,对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层。
本申请实施例中,对经过训练后的第一声学模型的解码层和输出层进行复制,得到多个解码层和与每一个解码层对应的输出层。其中,每一个解码层和对应的一个输出层构成一个分支。
步骤103,根据多个分支和第一声学模型的编码层,生成第二声学模型。
本实施例中,将对训练后的第一声学模型的解码层和输出层进行复制得到的多个分支,与第一声学模型的编码层组合在一起,生成第二声学模型。
作为一种示例,参见图3,由图3可知,图3中的第二声学模型为对图2中的第一声学模型的解码层和输出层复制得到多个分支,多个分支共用第一声学模型的注意力层和编码层,得到的第二声学模型。
步骤104,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。
本申请实施例中,可以根据训练样本的来源和/或使用业务场景将训练样本集中的训练样本划分类别。
作为一种可能的情况,假如训练样本集中的训练样本为不同的硬件设备采集的语音数据时,不同硬件设备的结构和性能不同,导致采集的语音数据存在差异,因此,根据采集语音数据的硬件设备可以将训练样本集划分为多种类型的训练样本。
作为另一种可能的情况,假如训练样本集中各训练样本为同一硬件设备在不同的语音环境下采集的语音数据时,导致训练样本的噪声水平不通过,因此,各训练样本之间存在差异,可以根据训练样本的噪声水平,将训练样本集划分为多种类型的训练样本。
作为又一种可能的情况,假如训练样本集为同一硬件设备对不同年龄和性别的人采集得到的语音数据时,由于儿童和成人的说话方式不同,采集得到的语音数据也存在差异,因此,可以根据训练样本对应的性别和年龄,将训练样本集划分为多种类型的训练样本。
作为再一种可能的情况,可以根据训练样本的适用业务场景对训练样本进行类别划分。用于不同业务场景的训练样本划分为不同的类别。
需要说明的是,上述对训练样本进行划分类别的方法仅作为一种示例,当然还存在其余可能的情况,在此不做限定。
本申请实施例中,采用训练样本集中各类型的训练样本,对第二声学模型进行训练时,不同类型的训练样本共用同一个编码层,以对训练样本中的原始音频特征进行编码。进而,将编码后的不同类型的训练样本输入与其类型匹配的解码层和对应输出层的分支,以对第二声学模型中的各分支进行训练,以采用经过训练的第二声学模型进行语音识别。
需要解释的是,在对第二声学模型训练的过程中,为了保证各类型训练样本得到充分使用,可以在一次训练的过程中均采用相同类型的训练样本。不同训练过程的训练样本的类型,可以相同也可以不相同,不过为了达到更好的训练效果,可以在不同训练过程中尽可能的使用多种类型的训练样本。
本申请实施例中,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练后,采用测试样本集对训练后的第二声学模型的训练效果进行测试。
作为一种可能的实现方式,对经过训练后的第二声学模型进行测试时,可以根据不同的业务场景将第二声学模型拆分为对应业务场景的第一声学模型,然后使用该场景的测试样本对模型进行测试。为了保证模型测试的准确度,测试样本数量可以为3000-10000个,并且每个音频样本需要有对应的文本标注,测试结果一般用字准和句准统计,进而实现了对第二声学模型训练结果的测试。
本申请实施例的语音处理方法,采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层,对解码层和输出层复制,得到多个分支,每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,能够准确识别不同类型的语音,从而提高了语音识别的准确度。
在本申请实施例的一种可能的实现方式中,可以采用语音的原始音频特征和语音对应文本标注的参考发音信息作为训练样本,对第二声学模型进行训练。具体的模型训练过程参见图4,图4为本申请实施例提供的一种第二声学模型的训练方法的流程示意图。
如图4所示,该模型训练方法可以包括以下步骤:
步骤201,采用第二声学模型的编码层对训练样本中的原始音频特征进行编码。
其中,训练样本,包括语音的原始音频特征和语音对应文本标注的参考发音信息。
由于语音信号的大部分信息包含在低频分量和低幅部分中,但是,人耳对声音频谱的响应是非线性的,经验表明:如果我们能够以类似于人耳的方式对音频进行处理,可以提高语音识别的性能。本实施例中,对训练样本中语音的原始音频进行特征提取,得到语音的原始音频特征。原始音频特征中包括滤波器FBank特征。
本实施例中,对语音的原始音频提取MFCC特征,并通过高斯混合模型(GaussianMixture Model,简称GMM)将人工标注的文本对齐音频片段,进而将文本转化为语音对应文本标注的参考发音信息。
需要说明的是,本实施例中原始音频特征提取方法,可以参考现有技术,在此不再赘述。
本实施例中,训练样本,可以是通过硬件设备采集语音数据得到的。不同的硬件设备采集得到的语音数据存在差异,同一硬件设备在不同的语言环境下采集得到的语音数据也存在差异,因此可以将训练样本划分为不同的类型。
具体地,采用第二声学模型的编码层对通过输入层输入的训练样本中的原始音频特征进行编码。
步骤202,根据训练样本的类型,将对应的编码输入匹配类型的分支,得到输出发音信息。
具体地,根据训练样本的类型,将各类型对应的原始音频特征对应的编码输入第二声学模型中匹配类型的分支,得到输出的发音信息。
举例来说,若存在某一类型的训练样本与第二声学模型的第二个分支相匹配,则将对该类型的训练样本中的原始音频特征进行编码后,将对应的编码输入第二分支,得到输出的发音信息。
步骤203,根据参考发音信息与输出发音信息之间的差异,对匹配类型的分支进行参数调整,以使差异最小化。
本申请实施例中,根据训练样本的类型,将对应的编码输入匹配类型的分支得到输出发音信息后,将输出发音与对应文本标注的参考发音进行比较,得到参考发音信息与输出发音信息之间的差异。进而,根据参考发音信息与输出发音信息之间的差异,对匹配类型分支进行参数调整,以对第二声学模型进行优化训练,直至参考发音信息与输出发音信息之间的差异最小化时,完成对第二声学模型的训练。
由此,采用各种类型的训练样本对第二声学模型的与各类型匹配的各分支进行训练,使得训练后的第二声学模型能够满足不同场景的需求,能够准确识别出各种类型的语音对应的发音信息。
本申请实施例中,采用第二声学模型的编码层对训练样本中的原始音频特征进行编码,根据训练样本的类型,将对应的编码输入匹配类型的分支,得到输出发音信息,根据参考发音信息与输出发音信息之间的差异,对匹配类型的分支进行参数调整,以使差异最小化。由此,通过语音的原始音频特征和对应文本标注的参考发音信息对第二声学模型中匹配类型的分支进行训练,能够实现将多种类型的语音输入第二声学模型后,准确的输出对应的发音信息,从而提高了语音识别的准确度。
作为一种示例,可以将待识别的目标语音输入经过训练的第二声学模型,以得到目标语音对应的发音信息。下面结合图5对上述过程进行详细介绍,图5为本申请实施例提供的另一种语音处理方法的流程示意图。
如图5所示,该语音处理方法包括以下步骤:
步骤301,采用第二声学模型的编码层对待识别的目标语音进行编码。
本申请实施例中,将待识别的目标语音输入第二声学模型后,第二声学模型的编码层对待识别的目标语音进行编码,以将目标语音转换为计算机能够识别的编码信号。
步骤302,根据目标语音的类型,从第二声学模型的多个分支中确定目标分支。
本申请实施例中,由于第二声学模型的各分支的训练过程是采用与其类型匹配的训练样本进行训练的,因此,本实施例中,根据目标语言的类型,从第二声学模型的多个分支中确定与目标语言的类型匹配的目标分支。
步骤303,将目标语音的编码,输入目标分支得到对应的发音信息。
本申请实施例中,根据目标语音的类型,从第二声学模型的多个分支中确定与目标语言的类型匹配的目标分支后,将目标语言的编码输入目标分支,得到对应的发音信息。
本申请实施例的语音处理方法,通过采用第二声学模型的编码层对待识别的目标语音进行编码,根据目标语音的类型,从第二声学模型的多个分支中确定目标分支,将目标语音的编码,输入目标分支得到对应的发音信息。由此,通过将不同类型的待识别目标语音,输入与其类型匹配的分支,以得到对应的发音信息,从而提高了语音识别的准确率,解决了现有技术中的声学模型在识别多种类型语音信息时准确率较低的技术问题。
为了实现上述实施例,本申请还提出一种语音处理装置。
图6为本申请实施例提供的一种语音处理装置的结构示意图。
如图6所示,该语音处理装置100包括:第一训练模块110、处理模块120、生成模块130以及第二训练模块140。
第一训练模块110,用于采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层。
处理模块120,用于对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层。
生成模块130,用于根据多个分支和第一声学模型的编码层,生成第二声学模型。
第二训练模块140,用于采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。
作为一种可能的实现方式,训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,第二训练模块140,用于:
采用第二声学模型的编码层对训练样本中的原始音频特征进行编码;
根据训练样本的类型,将对应的编码输入匹配类型的分支,得到输出发音信息;
根据参考发音信息与输出发音信息之间的差异,对匹配类型的分支进行参数调整,以使差异最小化。
作为另一种可能的实现方式,原始音频特征,包括滤波器FBank特征。
作为另一种可能的实现方式,语音处理装置100,还包括:
划分模块,用于根据训练样本的来源和/或适用业务场景划分类别。
作为另一种可能的实现方式,第一声学模型还包括注意力层;第二声学模型相应包括注意力层。
作为另一种可能的实现方式,第二训练模块140,用于:
采用第二声学模型的编码层对待识别的目标语音进行编码;
根据目标语音的类型,从第二声学模型的多个分支中确定目标分支;
将目标语音的编码,输入目标分支得到对应的发音信息。
需要说明的是,前述对语音处理方法实施例的解释说明也适用于该实施例的语音处理装置,此处不再赘述。
本申请实施例的语音处理装置,采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层,对解码层和输出层复制,得到多个分支,每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,能够准确识别不同类型的语音,从而提高了语音识别的准确度。
为了实现上述实施例,本申请还提出一种电子设备,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例中所述的语音处理方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所述的语音处理方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的语音处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种语音处理方法,其特征在于,所述方法包括以下步骤:
采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;所述训练样本集中各类型训练样本为不同硬件设备采集的语音数据;
对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型对待识别的目标语音进行语音识别,得到所述目标语音对应的发音信息。
2.根据权利要求1所述的方法,其特征在于,所述训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,包括:
采用所述第二声学模型的编码层对所述训练样本中的原始音频特征进行编码;
根据所述训练样本的类型,将对应的编码输入匹配所述类型的分支,得到输出发音信息;
根据所述参考发音信息与所述输出发音信息之间的差异,对所述匹配所述类型的分支进行参数调整,以使所述差异最小化。
3.根据权利要求2所述的方法,其特征在于,
所述原始音频特征,包括滤波器FBank特征。
4.根据权利要求1所述的方法,其特征在于,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练之前,还包括:
根据所述训练样本的来源和/或适用业务场景划分类别。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述第一声学模型还包括注意力层;
所述第二声学模型相应包括所述注意力层。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述采用经过训练的第二声学模型进行语音识别,包括:
采用所述第二声学模型的编码层对待识别的目标语音进行编码;
根据所述目标语音的类型,从所述第二声学模型的多个分支中确定目标分支;
将所述目标语音的编码,输入所述目标分支得到对应的发音信息。
7.一种语音处理装置,其特征在于,所述装置包括:
第一训练模块,用于采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;所述训练样本集中各类型训练样本为不同硬件设备采集的语音数据;
处理模块,用于对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
生成模块,用于根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
第二训练模块,用于采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型对待识别的目标语音进行语音识别,得到所述目标语音对应的发音信息。
8.根据权利要求7所述的装置,其特征在于,所述训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,所述第二训练模块,用于:
采用所述第二声学模型的编码层对所述训练样本中的原始音频特征进行编码;
根据所述训练样本的类型,将对应的编码输入匹配所述类型的分支,得到输出发音信息;
根据所述参考发音信息与所述输出发音信息之间的差异,对所述匹配所述类型的分支进行参数调整,以使所述差异最小化。
9.根据权利要求8所述的装置,其特征在于,所述原始音频特征,包括滤波器FBank特征。
10.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
划分模块,用于根据所述训练样本的来源和/或适用业务场景划分类别。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述第一声学模型还包括注意力层;
所述第二声学模型相应包括所述注意力层。
12.根据权利要求7-10任一项所述的装置,其特征在于,所述第二训练模块,用于:
采用所述第二声学模型的编码层对待识别的目标语音进行编码;
根据所述目标语音的类型,从所述第二声学模型的多个分支中确定目标分支;
将所述目标语音的编码,输入所述目标分支声学得到对应的发音信息。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的语音处理方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910463203.7A CN110197658B (zh) | 2019-05-30 | 2019-05-30 | 语音处理方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910463203.7A CN110197658B (zh) | 2019-05-30 | 2019-05-30 | 语音处理方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197658A CN110197658A (zh) | 2019-09-03 |
CN110197658B true CN110197658B (zh) | 2021-01-26 |
Family
ID=67753539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910463203.7A Active CN110197658B (zh) | 2019-05-30 | 2019-05-30 | 语音处理方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197658B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178253B (zh) * | 2019-12-27 | 2024-02-27 | 佑驾创新(北京)技术有限公司 | 自动驾驶的视觉感知方法、装置、计算机设备和存储介质 |
CN111261144B (zh) * | 2019-12-31 | 2023-03-03 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN113112993B (zh) * | 2020-01-10 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
CN111354345B (zh) * | 2020-03-11 | 2021-08-31 | 北京字节跳动网络技术有限公司 | 生成语音模型和语音识别的方法、装置、设备以及介质 |
CN111653271B (zh) * | 2020-05-26 | 2023-09-05 | 大众问问(北京)信息科技有限公司 | 一种样本数据获取、模型训练方法、装置及计算机设备 |
CN111768763A (zh) * | 2020-06-12 | 2020-10-13 | 北京三快在线科技有限公司 | 声学模型训练方法、装置、电子设备及存储介质 |
CN111862949B (zh) * | 2020-07-30 | 2024-04-02 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
CN111899729B (zh) * | 2020-08-17 | 2023-11-21 | 广州市百果园信息技术有限公司 | 一种语音模型的训练方法、装置、服务器和存储介质 |
CN112489637B (zh) * | 2020-11-03 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN113157240A (zh) * | 2021-04-27 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备、存储介质及计算机程序产品 |
CN113535144A (zh) * | 2021-06-15 | 2021-10-22 | 北京彩彻区明科技有限公司 | 自然语言编程方法、装置、设备及存储介质 |
CN114998881B (zh) * | 2022-05-27 | 2023-11-07 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、文本识别方法、装置和设备 |
CN114974220B (zh) * | 2022-06-17 | 2024-11-05 | 中国电信股份有限公司 | 网络模型的训练方法、语音对象的性别识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053312A (ja) * | 2009-08-31 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 適応化音響モデル生成装置及びプログラム |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN106228980A (zh) * | 2016-07-21 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
US10013973B2 (en) * | 2016-01-18 | 2018-07-03 | Kabushiki Kaisha Toshiba | Speaker-adaptive speech recognition |
CN109616102A (zh) * | 2019-01-09 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 声学模型的训练方法、装置及存储介质 |
CN109616103A (zh) * | 2019-01-09 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 声学模型的训练方法、装置及存储介质 |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336770B2 (en) * | 2013-08-13 | 2016-05-10 | Mitsubishi Electric Corporation | Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method |
CN107785015A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及装置 |
CN109272988B (zh) * | 2018-09-30 | 2022-05-24 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
-
2019
- 2019-05-30 CN CN201910463203.7A patent/CN110197658B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053312A (ja) * | 2009-08-31 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 適応化音響モデル生成装置及びプログラム |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
US10013973B2 (en) * | 2016-01-18 | 2018-07-03 | Kabushiki Kaisha Toshiba | Speaker-adaptive speech recognition |
CN106228980A (zh) * | 2016-07-21 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
CN109616102A (zh) * | 2019-01-09 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 声学模型的训练方法、装置及存储介质 |
CN109616103A (zh) * | 2019-01-09 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 声学模型的训练方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
SEQUENCE TRAINING OF MULTI-TASK ACOUSTIC MODELS USING META-STATE LABELS;Olivier Siohan;《 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20160519;全文 * |
连续语音识别特征提取与声学模型训练区分性技术研究;陈斌;《中国博士学位论文全文数据库(信息科技辑)》;20160715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197658A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197658B (zh) | 语音处理方法、装置以及电子设备 | |
Adeel et al. | Contextual deep learning-based audio-visual switching for speech enhancement in real-world environments | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN106887225B (zh) | 基于卷积神经网络的声学特征提取方法、装置和终端设备 | |
Adeel et al. | Lip-reading driven deep learning approach for speech enhancement | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
US11120802B2 (en) | Diarization driven by the ASR based segmentation | |
CN111883107B (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
CN113923521B (zh) | 一种视频的脚本化方法 | |
CN111899758A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN113160855B (zh) | 在线语音活性检测系统改进方法和装置 | |
US20190156835A1 (en) | Diarization Driven by Meta-Information Identified in Discussion Content | |
CN113205793A (zh) | 音频生成方法、装置、存储介质及电子设备 | |
US10910000B2 (en) | Method and device for audio recognition using a voting matrix | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN115240696B (zh) | 一种语音识别方法及可读存储介质 | |
CN113314099B (zh) | 语音识别置信度的确定方法和确定装置 | |
CN111833847A (zh) | 语音处理模型训练方法和装置 | |
CN115641860A (zh) | 模型的训练方法、语音转换方法和装置、设备及存储介质 | |
CN117121099A (zh) | 自适应视觉语音识别 | |
CN114220177A (zh) | 唇部音节识别方法、装置、设备及介质 | |
CN112951274A (zh) | 语音相似度确定方法及设备、程序产品 | |
CN111027667A (zh) | 意图类别的识别方法和装置 | |
CN113139561A (zh) | 一种垃圾分类方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |