CN110503944B - 语音唤醒模型的训练和使用方法及装置 - Google Patents
语音唤醒模型的训练和使用方法及装置 Download PDFInfo
- Publication number
- CN110503944B CN110503944B CN201910806848.6A CN201910806848A CN110503944B CN 110503944 B CN110503944 B CN 110503944B CN 201910806848 A CN201910806848 A CN 201910806848A CN 110503944 B CN110503944 B CN 110503944B
- Authority
- CN
- China
- Prior art keywords
- speech
- detection system
- speed
- training
- sliding window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 claims abstract description 202
- 206010071299 Slow speech Diseases 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开语音唤醒模型的训练和使用方法及装置,其中,一种语音唤醒模型的训练方法,包括:获取针对语音唤醒模型的训练语音数据;将所述训练语音数据分别输入至关键字检测系统和语速检测系统;获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。本申请的方法和装置提供的方案通过考虑语速对唤醒结果的影响,加入语速检测,对于不同语速的语音采用不同长度的滑动窗,从而可以极大地降低语速对唤醒结果的影响。
Description
技术领域
本发明属于语音唤醒技术领域,尤其涉及语音唤醒模型的训练和使用方法及装置。
背景技术
相关技术中,存在基于深度学习的关键字识别技术,即语音唤醒技术,例如一个语音交互系统,当用户说出指令,系统判断是否是唤醒词,如果是,交互系统被唤醒,如果不是,交互系统不被唤醒。
语音唤醒模型需要给定唤醒词,要经过前期的训练,得到唤醒模型。
发明人在实现本申请的过程中发现,基于深度学习的语音唤醒技术在用户的正常语速下表现优异,在快语速下表现较差;同一个唤醒词,在正常语速下唤醒率是90%,在快语速下可以低至70%。
发明内容
本发明实施例提供一种语音唤醒模型的训练和使用方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音唤醒模型的训练方法,包括:获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。
第二方面,本发明实施例提供一种语音唤醒模型的使用方法,包括:获取用户的待检测语音数据;将所述待检测语音数据输入至经过第一方面的方法训练后的语速检测系统中;获取所述语速检测系统的语速快慢结果;基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;将所述待检测语音数据输入至经过第一方面的方法训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。
第三方面,本发明实施例提供一种语音唤醒模型的训练装置,包括:训练获取模块,配置为获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;输入模块,配置为将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;输出获取模块,配置为获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;以及训练模块,配置为至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。
第四方面,本发明实施例提供一种语音唤醒模型的使用装置,包括:检测获取模块,配置为获取用户的待检测语音数据;语速检测模块,配置为将所述待检测语音数据输入至经过第一方面的方法训练后的语速检测系统中;语速获取模块,配置为获取所述语速检测系统的语速快慢结果;滑动窗长度确定模块,配置为基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;关键字检测模块,配置为将所述待检测语音数据输入至经过第一方面的方法训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;以及唤醒结果输出模块,配置为获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒模型的训练和使用方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音唤醒模型的训练和使用方法的步骤。
本申请的方法和装置提供的方案通过同时训练两个系统:语速检测系统和关键字检测系统,考虑语速对唤醒结果的影响,加入语速检测,对于不同语速的语音采用不同长度的滑动窗,从而可以极大地降低语速对唤醒结果的影响,提高唤醒率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音唤醒模型的训练方法的流程图;
图2为本发明一实施例提供的另一种语音唤醒模型的训练方法的流程图;
图3为本发明一实施例提供的又一种语音唤醒模型的使用方法的流程图;
图4为本发明一实施例提供的再一种语音唤醒模型的训练和使用方法的一个具体示例的框图;
图5为本发明一实施例提供的还一种语音唤醒模型的训练装置的框图;
图6为本发明一实施例提供的还一种语音唤醒模型的使用装置的框图;
图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的语音唤醒模型的训练方法一实施例的流程图,本实施例的语音唤醒模型的训练方法可以适用于具备智能语音对话唤醒功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒的智能终端等。
如图1所示,在步骤101中,获取针对语音唤醒模型的训练语音数据;
在步骤102中,将训练语音数据分别输入至关键字检测系统和语速检测系统;
在步骤103中,获取关键字检测系统输出的训练语音数据是否包含指定唤醒词的第一输出结果,获取语速检测系统输出的训练语音数据的快慢的第二输出结果;
在步骤104中,至少将训练语音数据的第一属性和第二属性作为基准对关键字检测系统和语速检测系统进行训练。
在本实施例中,对于步骤101,语音唤醒模型的训练装置首先获取训练语音数据,其中,该训练语音数据具有已知的第一属性和已知的第二属性,第一属性为是否包含指定唤醒词,第二属性为语速快慢,即训练语音数据中是否包含指定唤醒词和训练语音数据的语速快慢是已知的。之后,对于步骤102,语音唤醒模型的训练装置将该训练语音数据分别输入至关键字检测系统和语速检测系统中,其中,关键字检测系统用于检测语音数据中是否包含指定唤醒词,语速检测系统用于检测语音数据的语速快慢。其中,关键字检测系统可以是现有的关键字检测系统,也可以是未来开发的性能更好地关键字检测系统,本申请在此没有限制。关键字检测系统通过训练一个能够识别预设关键字,即唤醒词的模型,从而能够检测到语音中是否包含唤醒词。语速检测系统则是设定一个或者多个阈值将语速分为多个等级或区间,从而通过将语音输入,即可判断其语速处于哪个等级或区间,语速检测系统也可以是现有的其他的语速检测系统或者未来开发的新的用于检测语音语速的系统,本申请在此没有限制。
之后,对于步骤103,语音唤醒模型的训练装置通过获取关键字检测系统输出的训练语音数据是否包含指定唤醒词的第一输出结果,以及获取语速检测系统输出的训练语音数据的快慢的第二输出结果。之后对于步骤104,语音唤醒模型的训练装置至少将训练语音数据的第一属性和第二属性作为基准对关键字检测系统和语速检测系统进行训练,通过以已知的属性为基准或者目标对关键字检测模型和语速检测模型进行训练,使得关键字检测模型和语速检测模型准确度更高。
本实施例提供的语音唤醒模型的训练方法通过将已知属性的训练语音数据输入至关键字检测系统和语速检测系统中,从而可以通过训练之后不断调整关键字检测系统和语速检测系统的参数的方式不断地优化关键字检测系统和语速检测系统,使得其检测性能更好,准确度更高,更好地用于后续的唤醒识别中。
在一些可选的实施例中,语速检测系统为二分类器,语速检测系统内设置有一个语速阈值,其中,当语速大于等于语速阈值时,输出语速为快;当语速小于语速阈值时,输出语速为慢。从而只分为语速为快和语速为慢,二分类器训练起来简单快捷。
进一步参考图2,其示出了本申请的语音唤醒模型的训练方法的另一实施例的流程图。本实施例的方法主要是针对流程图1中步骤104进一步限定的步骤的流程图。
在步骤201中,调节语速检测系统的参数以使得语速检测系统的第二输出结果基本等于第二属性;
在步骤202中,对应于语速检测系统检测出来的不同的语速,通过在训练的过程中调节关键字检测系统的参数以使得关键字检测系统的第一输出结果基本等于第一属性。
在本实施例中,对于步骤201,语音唤醒模型的训练装置通过调节语速检测系统的参数以使得语速检测系统的第二输出结果基本等于第二属性,即训练的结果越来越趋近真实的结果。之后,对于步骤202,对应于语速检测系统检测出来的不同的语速,通过在训练的过程中调节关键字检测系统的参数使得关键字检测系统的第一输出结果基本等于第一属性,即判断是否包含关键字也更加趋近于真实的是否包含关键字的结果。
本实施例的方法通过在训练的过程中通过调整模型的参数使得训练的输出结果基本等于真实的结果,从而可以使得训练后的各模型准确度更高,检测性能更好。
在一些可选的实施例中,关键字检测系统的参数包括滑动窗长度。从而针对不同的语速,可以通过调节滑动窗长度这个参数使得关键字检测模型的准确度更高。
请参考图3,其示出了本申请一实施例提供的一种语音唤醒模型的使用方法的流程图。本实施例的语音唤醒模型的训练方法可以适用于具备智能语音对话唤醒功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒的智能终端等。
如图3所示,在步骤301中,获取用户的待检测语音数据;
在步骤302中,将待检测语音数据输入至经过以上实施例的方法训练后的语速检测系统中;
在步骤303中,获取语速检测系统的语速快慢结果;
在步骤304中,基于语速快慢结果确定在关键字检测系统使用的滑动窗的对应滑动窗长度;
在步骤305中,将待检测语音数据输入至经过以上实施例的方法训练后的且使用对应滑动窗长度的滑动窗的关键字检测系统中;
在步骤306中,获取关键字检测系统的输出,基于输出给出唤醒结果。
在本实施例中,对于步骤301,语音唤醒模型的使用装置获取用户的待检测语音数据。之后对于步骤302,语音唤醒模型的使用装置将待监测语音数据输入至经过图1,图2及相关的实施例的方法训练过的语速检测系统中。然后对于步骤303,获取语速检测系统输出的语速快慢结果。之后对于步骤304,基于之前获取的语速快慢结果确定需要在关键字检测系统中使用的滑动窗的对应滑动窗长度,一般而言,当语速为快时,对应滑动窗长度更短,当语速为慢时,对应滑动窗长度更长,从而对应滑动窗长度随着语速变化,关键字检测系统受到语速的影响将极大地被降低,从而可以更好地检测是否存在唤醒词。
本实施例的方法通过在获取到待检测语音数据之后,先检测语速的快慢,再根据语速的快慢相应地调节关键字检测系统的参数,从而可以使得语速对关键字检测系统的检测准确度的影响尽可能地降低,从而关键字检测系统能够对关键字具有更好的检测能力,唤醒性能也能有所提升。
在一些可选的实施例中,基于语速快慢结果确定在关键字检测系统使用的滑动窗的对应滑动窗长度包括:当语速快慢结果为快语速时,将关键字检测系统的滑动窗的滑动窗长度减小预设长度以与快语速对应;当语速快慢结果为慢语速时,将关键字检测系统的滑动窗的滑动窗长度增加预设长度以与慢语速对应。本实施例提出了一种确定滑动窗长度的方法,通过该方法可以通过语速与滑动窗长度的动态调节使得可以基于检测到的语速与基准语速相比的快慢来减小或增加相应的滑动窗长度从而切换至适合更快或者更慢的语速的滑动窗长度,从而更好地识别唤醒词。
在一些可选的实施例中,基于语速快慢结果确定在关键字检测系统使用的滑动窗的对应滑动窗长度包括:当语速快慢结果为快语速时,对应滑动窗长度为L1;当语速快慢结果为慢语速时,对应滑动窗长度为L2,其中L1<L2。本实施例提出了一种确定滑动窗长度的方法,通过该方法可以通过语速与滑动窗长度一一对应的方式使得可以基于检测到的语速切换至相应的滑动窗长度,从而更好地识别唤醒词。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人对现有技术进行仔细研究后发现,现有技术方案的缺陷主要是由于以下原因导致的:
语音唤醒模型,在经过前期训练之后,模型参数已经固定;然而不同语速下,模型参数是需要调整的。固定参数的模型不适合解决语速改变的问题。
本领域技术人员为了解决上述缺陷,可能会采用以下方案:
为了解决语速改变的问题,通常采用改变语音特征提取的参数,来适应快语速;然而适应快语速的参数,又会降低正常语速的唤醒率。
由于语音唤醒模型一般使用在非常小型的智能设备上,比如说智能手环,智能手机,可供支配的内存较小,而参数可变/多参数模型需要更大的内存容量。然而随着智能设备硬件的发展,可使用的内存空间有显著提升,参数可变/多参数模型也有了实现的基础。
本申请的方案提出了一种语音唤醒模型的训练和使用装置:
在现在使用的关键字检测系统基础上,增加一个语速检测系统;语速检测系统用于检测语速的快慢,对应不同的语速,使用不同的预测参数;语速检测系统配合关键字检测模型,可以达到较好的唤醒效果。
请参考图4,其示出了本申请的方案的一个具体实施例的流程图,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
如图4所示,在模型训练阶段,训练两个系统,关键字检测系统(图4中的语音唤醒模型)和语速检测系统(图4中的回归模型)。其中关键字检测系统的输入是训练数据,即大量包含或者不包含唤醒词的录音,输出录音是否包含唤醒词。语速检测系统的输入同样是录音数据,输出为录音语速的快慢,它本质上是一个二分类器。
在测试阶段,测试录音会送入语速检测和关键字检测系统;语速检测系统检测语速的好坏,如果是快语速,关键字检测系统使用较小长度的滑动窗,如果慢,则使用较大长度的滑动窗;最后给出唤醒结果,即是否为关键字。
其中,训练阶段的语速检测系统,可以用回归模型替代。在语速判定的训练过程中,输入为语音段的label序列,该label序列可以计算出语音段中每个字的时长,输出为语速,这是一个回归模型,即输出值是连续的,可选取一个线性回归模型。
在语速判定的测试过程中,输入语音的label序列,输出为语速,将不同语速划分为三个类别,慢速,正常语速和快速,每个语速对应不同窗长大小,语速越快,窗长越小,其中。label序列指的是语音段对应的标注序列,是由原始的拼音标注经过HMM声学模型得到的帧级别的标注序列。
在语音唤醒模型中,训练阶段模型输入是语音特征,输出是对应label的后验概率,即判定为某一个label的概率。测试过程中,模型输出后验得分,再依据打分系统对后验得分进行打分,此打分系统依赖窗长值,最终输出唤醒结果(唤醒/未唤醒)。
打分系统中,根据唤醒模型得到的后验概率,根据打分原则计算整体得分,该得分超过阈值就可以唤醒;打分过程中,窗长直接影响一段语音段中,某个label后验概率最大值的计算,语速较快时,窗长短一些,得到的最大值较准确;语速慢时,窗长长一些比较准确。
上述实施例至少能够实现如下技术效果:
本实施例提供的方案通过考虑语速对唤醒结果的影响,加入语速检测,对于不同语速的语音采用不同长度的滑动窗,从而可以极大地降低语速对唤醒结果的影响。
请参考图5,其示出了本发明一实施例提供的语音唤醒模型的训练装置的框图。
如图5所示,一种语音唤醒模型的训练装置500,包括训练获取模块510、输入模块520、输出获取模块530和训练模块540。
其中,训练获取模块510,配置为获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;输入模块520,配置为将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;输出获取模块530,配置为获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;以及训练模块540,配置为至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。
进一步参考图6,其示出了本发明一实施例提供的语音唤醒模型的使用装置的框图。
如图6所示,一种语音唤醒模型的使用装置600,包括检测获取模块610、语速检测模块620、语速获取模块630、滑动窗长度确定模块640、关键字检测模块650和唤醒结果输出模块660。
其中,检测获取模块610,配置为获取用户的待检测语音数据;语速检测模块620,配置为将所述待检测语音数据输入至经过流程图1所示的方法训练后的语速检测系统中;语速获取模块630,配置为获取所述语速检测系统的语速快慢结果;滑动窗长度确定模块640,配置为基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;关键字检测模块650,配置为将所述待检测语音数据输入至经过流程图1所示的方法训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;以及唤醒结果输出模块660,配置为获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。
应当理解,图5和图6中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5和图6中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如训练获取模块可以描述为获取针对语音唤醒模型的训练语音数据的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如训练获取模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音唤醒模型的训练和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;
将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;
获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;
至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取用户的待检测语音数据;
将所述待检测语音数据输入至经过上述实施方式训练后的语速检测系统中;
获取所述语速检测系统的语速快慢结果;
基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;
将所述待检测语音数据输入至经过上述实施方式训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;
获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音唤醒模型的训练和使用装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音唤醒模型的训练和使用装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音唤醒模型的训练和使用方法。
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音唤醒模型的训练和使用方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音唤醒模型的训练和使用方法。输入装置730可接收输入的数字或字符信息,以及产生与语音唤醒模型的训练和使用装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音唤醒模型的训练装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;
将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;
获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;
至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。
作为另一种实施方式,上述电子设备应用于语音唤醒模型的使用装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取用户的待检测语音数据;
将所述待检测语音数据输入至经过上述实施方式训练后的语速检测系统中;
获取所述语速检测系统的语速快慢结果;
基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;
将所述待检测语音数据输入至经过上述实施方式训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;
获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种语音唤醒模型的训练方法,包括:
获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;
将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;
获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;
调节所述语速检测系统的参数以使得所述语速检测系统的第二输出结果基本等于所述第二属性;
对应于所述语速检测系统检测出来的不同的语速,通过在训练的过程中调节所述关键字检测系统的参数以使得所述关键字检测系统的第一输出结果基本等于所述第一属性。
2.根据权利要求1所述的方法,其中,所述语速检测系统为二分类器,所述语速检测系统内设置有一个语速阈值,其中,
当语速大于等于所述语速阈值时,输出语速为快;
当语速小于所述语速阈值时,输出语速为慢。
3.根据权利要求1所述的方法,其中,所述关键字检测系统的参数包括滑动窗长度。
4.一种语音唤醒模型的使用方法,包括:
获取用户的待检测语音数据;
将所述待检测语音数据输入至经过权利要求1-3任一项训练后的语速检测系统中;
获取所述语速检测系统的语速快慢结果;
基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;
将所述待检测语音数据输入至经过权利要求1-3任一项训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;
获取所述关键字检测系统的输出,基于所述输出给出唤醒结果;
其中,所述基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度包括:
当所述语速快慢结果为快语速时,将所述关键字检测系统的滑动窗的滑动窗长度减小预设长度以与所述快语速对应;
当所述语速快慢结果为慢语速时,将所述关键字检测系统的滑动窗的滑动窗长度增加预设长度以与所述慢语速对应。
5.根据权利要求4所述的方法,其中,所述基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度包括:
当所述语速快慢结果为快语速时,对应滑动窗长度为L1;
当所述语速快慢结果为慢语速时,对应滑动窗长度为L2,其中L1<L2。
6.一种语音唤醒模型的训练装置,包括:
训练获取模块,配置为获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;
输入模块,配置为将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;
输出获取模块,配置为获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;
训练模块,配置为调节所述语速检测系统的参数以使得所述语速检测系统的第二输出结果基本等于所述第二属性,对应于所述语速检测系统检测出来的不同的语速,通过在训练的过程中调节所述关键字检测系统的参数以使得所述关键字检测系统的第一输出结果基本等于所述第一属性。
7.一种语音唤醒模型的使用装置,包括:
检测获取模块,配置为获取用户的待检测语音数据;
语速检测模块,配置为将所述待检测语音数据输入至经过权利要求1-3任一项训练后的语速检测系统中;
语速获取模块,配置为获取所述语速检测系统的语速快慢结果;
滑动窗长度确定模块,配置为基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;
关键字检测模块,配置为将所述待检测语音数据输入至经过权利要求1-3任一项训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;
唤醒结果输出模块,配置为获取所述关键字检测系统的输出,基于所述输出给出唤醒结果;
其中,所述滑动窗长度确定模块,进一步配置为当所述语速快慢结果为快语速时,将所述关键字检测系统的滑动窗的滑动窗长度减小预设长度以与所述快语速对应,当所述语速快慢结果为慢语速时,将所述关键字检测系统的滑动窗的滑动窗长度增加预设长度以与所述慢语速对应。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910806848.6A CN110503944B (zh) | 2019-08-29 | 2019-08-29 | 语音唤醒模型的训练和使用方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910806848.6A CN110503944B (zh) | 2019-08-29 | 2019-08-29 | 语音唤醒模型的训练和使用方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503944A CN110503944A (zh) | 2019-11-26 |
CN110503944B true CN110503944B (zh) | 2021-09-24 |
Family
ID=68590309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910806848.6A Active CN110503944B (zh) | 2019-08-29 | 2019-08-29 | 语音唤醒模型的训练和使用方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503944B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910885B (zh) * | 2019-12-12 | 2022-05-27 | 思必驰科技股份有限公司 | 基于解码网络的语音唤醒方法和装置 |
WO2021134549A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个人工智能输出的人类合并和训练 |
CN112466332B (zh) * | 2020-11-13 | 2024-05-28 | 阳光保险集团股份有限公司 | 一种语速评分方法、装置、电子设备及存储介质 |
CN113782014B (zh) * | 2021-09-26 | 2024-03-26 | 联想(北京)有限公司 | 语音识别方法及装置 |
CN115223553B (zh) * | 2022-03-11 | 2023-11-17 | 广州汽车集团股份有限公司 | 语音识别方法和驾驶辅助系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358094A (ja) * | 2001-03-29 | 2002-12-13 | Ricoh Co Ltd | 音声認識システム |
DE102004012209A1 (de) * | 2004-03-12 | 2005-10-06 | Siemens Ag | Durch einen Benutzer steuerbare oder durch externe Parameter beeinflussbare Geräuschreduktion |
CN108701452A (zh) * | 2016-02-02 | 2018-10-23 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
-
2019
- 2019-08-29 CN CN201910806848.6A patent/CN110503944B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358094A (ja) * | 2001-03-29 | 2002-12-13 | Ricoh Co Ltd | 音声認識システム |
DE102004012209A1 (de) * | 2004-03-12 | 2005-10-06 | Siemens Ag | Durch einen Benutzer steuerbare oder durch externe Parameter beeinflussbare Geräuschreduktion |
CN108701452A (zh) * | 2016-02-02 | 2018-10-23 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110503944A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
US11127416B2 (en) | Method and apparatus for voice activity detection | |
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN111862942B (zh) | 普通话和四川话的混合语音识别模型的训练方法及系统 | |
CN110910885B (zh) | 基于解码网络的语音唤醒方法和装置 | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
CN111312218B (zh) | 神经网络的训练和语音端点检测方法及装置 | |
CN110600008A (zh) | 语音唤醒的优化方法及系统 | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN110570840A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN111145730A (zh) | 语音识别模型的优化方法及系统 | |
CN113205809A (zh) | 语音唤醒方法和装置 | |
CN109360551B (zh) | 一种语音识别方法及装置 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN110827799B (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN112951219A (zh) | 噪声拒识方法和装置 | |
CN111105803A (zh) | 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法 | |
US11775070B2 (en) | Vibration control method and system for computer device | |
CN112614506B (zh) | 语音激活检测方法和装置 | |
CN110516043B (zh) | 用于问答系统的答案生成方法和装置 | |
CN110473524B (zh) | 语音识别系统的构建方法和装置 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |