CN111833902B - 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 - Google Patents
唤醒模型训练方法、唤醒词识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111833902B CN111833902B CN202010647828.1A CN202010647828A CN111833902B CN 111833902 B CN111833902 B CN 111833902B CN 202010647828 A CN202010647828 A CN 202010647828A CN 111833902 B CN111833902 B CN 111833902B
- Authority
- CN
- China
- Prior art keywords
- wake
- audio
- model
- time length
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000001514 detection method Methods 0.000 claims abstract description 104
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000003247 decreasing effect Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 230000002618 waking effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Electric Clocks (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了一种唤醒模型训练方法、唤醒词识别方法、装置及电子设备,涉及数据处理技术领域。其中,该训练方法包括:通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词;确定所述语音信号中起点和终点之间的中间点;从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本;从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本;通过所述正样本和负样本对待训练唤醒模型进行训练。该方案可以快速获得训练所需样本数据,提高训练效率。
Description
技术领域
本申请涉及数据处理技术领域,更具体地,涉及一种唤醒模型训练方法、唤醒词识别方法、装置及电子设备。
背景技术
电子设备可以基于唤醒词进行唤醒。通过神经网络模型基于唤醒词进行唤醒,需要预先对通过唤醒词对神经网络模型进行训练。通常的,训练神经网络模型时,需要预先通过人力标注唤醒词音频,人力成本巨大,处理效率低。
发明内容
鉴于上述问题,本申请提出了一种唤醒模型训练方法、唤醒词识别方法、装置及电子设备,以改善上述问题。
第一方面,本申请实施例提供了一种唤醒模型训练方法,所述方法包括:通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词;确定所述语音信号中起点和终点之间的中间点;从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本;从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本;通过所述正样本和负样本对待训练唤醒模型进行训练。
第二方面,本申请实施例提供了一种唤醒词识别方法,根据上述方法获得的唤醒模型进行唤醒词识别,所述方法包括:通过语音检测算法从待识别音频中确定语音信号的中间点;从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频;将所述输入音频输入所述唤醒模型,获取所述唤醒模型的输出结果;若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
第三方面,本申请实施例提供了一种唤醒模型训练装置,所述训练装置包括:语音检测模块,用于通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词;音频处理模块,用于确定所述语音信号中起点和终点之间的中间点;正样本选取模块,用于从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本;负样本选取模块,用于从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本;训练模块,用于通过所述正样本和负样本对唤醒模型进行训练。
第四方面,本申请实施例提供了一种唤醒词识别装置,根据训练装置获得的唤醒模型进行唤醒词识别,所述识别装置包括:音频处理模块,用于通过语音检测算法从待识别音频中确定语音信号的中间点;输入音频选取模块,用于从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频;识别模块,用于将所述输入音频输入所述唤醒模型,获取所述唤醒模型的输出结果;操作模块,用于若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行用于执行上述的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
本申请实施例提供的唤醒模型训练方法、唤醒词识别方法、装置及电子设备,电子设备可以根据采集到的音频中语音信号的中间点,自动从音频中标注出正样本和负样本,基于标注出的正样本和负样本进行唤醒模型的训练,可快速获得训练所需样本数据,提高训练效率;基于此训练后的唤醒模型进行音频识别时,也可以从待识别音频中快速标注出用于识别的输入音频,提高识别效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的唤醒模型训练方法的流程图。
图2示出了本申请另一实施例提供的唤醒模型训练方法的流程图。
图3示出了本申请实施例提供的音频示意图。
图4示出了本申请又一实施例提供的唤醒模型训练方法的流程图。
图5示出了本申请再一实施例提供的唤醒模型训练方法的流程图。
图6示出了本申请一实施例提供的唤醒词识别方法的流程图。
图7示出了本申请另一实施例提供的唤醒词识别方法的流程图。
图8示出了本申请实施例提供的唤醒模型训练装置的功能模块图。
图9示出了本申请实施例提供的唤醒词识别装置的功能模块图。
图10示出了本申请实施例提供的电子设备的结构框图。
图11是本申请实施例的用于保存或者携带实现根据本申请实施例的方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
语音唤醒的应用领域较广,配置有语音唤醒功能的智能设备,可以作为本申请实施例中的电子设备,如手机、电脑、机器人、智能穿戴设备、智能家居以及车站设备。对电子设备的语音唤醒,可以是唤醒电子设备的工作状态,如通过唤醒使电子设备从待机状态切换为工作状态;也可以是唤醒电子设备的某些功能,如唤醒电子设备的语音助手等。
当进行唤醒时,用户说出唤醒词,电子设备接收到用户语音并识别出为唤醒词时,可以判定为接收到唤醒指令,进行相应的唤醒。
电子设备对唤醒词的识别可以通过唤醒模型,该唤醒模型为经过训练的神经网络模型,可以识别音频中是否包括唤醒词。对唤醒模型的训练,可以通过包括有唤醒词语音的正样本以及不包括完整唤醒词语音的负样本进行。
其中,正样本以及负样本,都可以从采集的用于训练唤醒模型的音频中获取。通常对唤醒模型的训练需要大量的训练样本,以提高唤醒模型的识别准确度。若通过人工标注,则需要大量的人力,且标注效率低。若通过用于样本标注的神经网络模型进行标注,该神经网络模型也需要根据人工标注的样本进行训练后,才具有标注能力,且只能标注训练的唤醒词对应的样本,仍然效率较低。
发明人总结用于训练的音频特性,提出了本申请实施例提供的唤醒模型训练方法、唤醒词识别方法、装置及电子设备,从采集的音频中确定语音信号的中间点,根据中间点从采集的音频中标注正样本和负样本,提高样本获取效率,从而可以提高训练效率。对应识别时,也可以提高识别效率。下面将通过具体实施例对本申请实施例提供的唤醒模型训练方法、唤醒词识别方法、装置及电子设备进行详细说明。
请参阅图1,示出了本申请实施例提供的唤醒模型训练方法。具体的,该方法包括:
步骤S110:通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词。
步骤S120:确定所述语音信号中起点和终点之间的中间点。
步骤S130:从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本。
步骤S140:从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本。
步骤S150:通过所述正样本和负样本对待训练唤醒模型进行训练。
本申请实施例提供的唤醒模型训练方法,通过语音检测算法检测到采集的音频中的起点和终点,从而基于该起点和终点确定语音信号的中间点,根据该中间点可以从包括唤醒词语音的音频中,获取到正样本和负样本,并通过获取到的正样本和负样本对唤醒模型进行训练。该实施例提供的方法中,可以快速从音频中获得正样本和负样本,提高样本获取效率,从而可以提高训练效率。
本申请另一实施例提供的唤醒模型训练方法,具体描述了正样本以及负样本的识别以及唤醒模型的训练。具体的,如图2所示,该唤醒模型训练方法可以包括如下步骤。
步骤S210:通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词。
步骤S220:确定所述语音信号中起点和终点之间的中间点。
采集用于进行唤醒模型训练的音频,作为采集的音频。采集的音频可以是包括有说出唤醒词的音频段,因此,可以从采集的音频中确定出包括唤醒词且具有合适长度的正样本。
其中,采集的音频中的语音信号,包括有说出的唤醒词的语音。每一个语音信号为开始说话到说话结束之间的一段音频,或者说从开始说话到说话结束之间的一个音频段为一个语音信号。
例如,在采集时,可以指示用户说出唤醒词,采集到的音频中包括说出有唤醒词的语音信号。如,开启语音信号的采集,采集过程中,用户每隔一段时间说出一次唤醒词,采集到的音频中包括有用户说出多个唤醒词时分别对应的多个语音信号。如图3示出了采集到的音频的示意图,其中横坐标表示时间t,纵坐标表示振幅A,其中振幅较高的音频段,为语音信号,如图3中振幅的绝对值大于虚线指示的A1以及A2对应的振幅部分,其中包括了唤醒词对应的语音;其他音频段,可能是无声的音频段或者噪声音频段,可以认为是背景音产生的非语音信号。
从采集的音频中确定出语音信号,即可粗略地确定唤醒词的大致位置。其中,语音信号相对非语音信号而言,具有不同的特征,从而可以根据不同的特征从音频中区分出语音信号以及非语音信号,区分出的语音信号可以确定为包括唤醒词的语音信号。例如,语音信号比非语音信号具有更高的能量以及更低的过零率,可以通过能量阈值、过零率阈值等一种或多种特征将语音信号以及非语音信号区分开来。
在本申请实施例中,可以通过语音检测算法从采集的音频中确定语音信号。例如,通过语音检测算法对采集的音频进行语音检测,从而确定其中哪些音频段为语音信号。具体的语音检测算法在本申请实施例中并不限定,例如可以是基于过零率的端点检测算法、基于能量双门限的端点检测方法、基于倒谱特征的端点检测算法,可以是带通数字滤波器等。
但是,由于噪声的影响以及语音信号标注可能存在的误差,采集的音频中标注出的语音信号不一定是准确的唤醒词语音,即不一定包括完整的唤醒词或者不一定刚好包括完整的唤醒词。在本申请实施例中,为了获取到使唤醒模型的识别准确率更高的正样本,可以根据语音信号进行音频段的选取,选取到时间长度更接近于唤醒词实际所占时间长度、且尽可能包括唤醒词的音频段作为正样本。
其中,在语音信号的中间点处,对应唤醒词的可能性较高,因此,可以确定采集的音频中语音信号的中间点,该中间点为中间时间点,用于确定正样本。
在本申请实施例中,确定语音信号的中间点的方式可以是,通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点。即语音检测算法可以检测到语音信号的起始时间点和结束时间点,语音信号的起始时间点作为语音信号的起点,语音信号的结束时间点作为语音信号的终点,起点和终点之间的音频段为一个语音信号。其中,若连续检测到两个或两个以上的起点,且该两个或两个以上的起点之间没有终点,最靠近终点的起点离唤醒词的中心通常更接近,可以选择最靠近终点的起点作为有效的起点,以该有效的起点与其最靠近的终点之间的语音信号作为检测到的语音信号。
再根据语音信号的起点和终点,可以确定语音信号中起点和终点之间的中间点。具体的,对于每个语音信号而言,可以将计算其起点和终点的中间值,作为其中间点。可选的,可以将语音信号的起点对应的时间加上终端对应的时间之和,再除以2,获得中间点对应的时间。
例如,对于图3所示的音频,包括了3个分别对应语音信号的音频段,以其中的语音信号对应的音频段010为例,如图3所示其起点时间t1,终点时间t2,中间点为起点和终点对应的时间的中间值t3=(t1+t2)/2,如图3所示。
步骤S230:从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本。
音频中的语音信号粗略地确定了唤醒词的大致位置,由于客观情况的限定以及语音信号确定的准确性,使语音信号相对于唤醒词的实际语音可能过长或过短,也可能错位。例如,语音信号的开头可能并非唤醒词相关的语音,如唤醒词为“小Q小Q”,但是检测到的语音信号为“xxx小Q小Q”,语音信号的开头部分相对唤醒词的语音过多;或者是唤醒词的开头没有包括在语音信号中,如唤醒词为“小Q小Q”,但是检测到的语音信号为“Q小Q”;语音信号的结束可能并非唤醒词相关的语音,如唤醒词为“小Q小Q”,但是检测到的语音信号为“小Q小Q xxx”,语音信号的结束部分相对唤醒词的语音过多;或者是唤醒词的结束部分没有包括在语音信号中,如唤醒词为“小Q小Q”,但是检测到的语音信号为“小Q小”。
因此,从采集的音频中,可以根据识别到的中间点,选择包括中间点的预设时间长度的音频段,作为选择的正样本,一个正样本为一段连续语音的音频段。如选择包括中间点的8秒音频段作为正样本、选择包括中间点的9秒音频段作为正样本等。正样本为认为包括了完整唤醒词的样本,其对应的分类为包括唤醒词的类别。
其中,预设时间长度可以根据经验设置,根据大数据设置,或者是根据所有语音信号的平均时间长度设置,或者根据后续描述的长度调整方式确定。
语言信号的中间点对应在唤醒词的语音中的可能性较高,语音信号的中间点靠近或者等于唤醒词中间点的可能性也较高,在一些实施方式中,可以以语音信号的中间点作为正样本的中间点进行正样本的选取。
具体的,可以从语音信号的中间点向前和向后分别选取指定时间长度的音频段作为正样本,该指定时间长度为所述预设时间长度的一半。也就是说,从中间点向前选取指定长度的音频段,以及从中间点向后选取指定长度的音频段,这两个音频段连续形成的音频段,作为正样本,正样本中包括语音信号的中间点,且语音信号的中间点为正样本的中间点。
仍然以图3所示的语音信号对应的音频段010为例,指定时间长度为t4,从中间点t3所指示位置处向前t4以及向后t4形成的音频段,选择作为正样本。该向前可以是时间上的向前,与横轴延伸方向相反;向后可以是时间上的向后,与横轴延伸方向相同。
可选的,在本申请实施例中,也可以将语音信号的中间点作为正样本的其他比例位置处进行选取,如正样本从前到后的40%对应语音信号的中间点、正样本从前到后的60%对应语音信号的中间点等。
步骤S240:从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本。
另外,还可以选取用于训练的负样本,负样本认为是不包括完整唤醒词的样本,其对应的分类为不包括唤醒词的类别。
其中,可以从采集的音频中选择不同于正样本的音频段,且选择的音频段的时间长度与正样本的时间长度相等,作为负样本。
为了降低负样本选取到包括完整唤醒词的可能性,可选的,可以从正样本结束位置处向后选取预设长度的音频段作为负样本;可选的,可以从正样本开始位置处向前选取预设长度的音频段作为负样本。
可选的,也可以从音频中对应正样本中的其中一个位置点向前或向后选取预设时间长度的音频段,作为负样本。若是向前选取,该位置点不同于正样本的终点,使选取的负样本与正样本不同;若是向后选取负样本,该位置点不同于正样本的起点,使选取的负样本与正样本不同。如从正样本的20%位置处向前选择预设时间长度的音频段。
步骤S250:通过所述正样本和负样本对待训练唤醒模型进行训练。
将正样本以及负样本输入待训练的唤醒模型进行训练,即正样本的音频段以及负样本的音频段输入待训练的唤醒模型,训练唤醒模型使其能将输入其中属于正样本的音频段识别为正样本所属类别;将输入其中属于负样本的音频段识别为负样本所属类别。
或者说,正样本的音频段的类别标签为正样本,表示其包括唤醒词;负样本的音频段的类别标签为负样本,表示其不包括唤醒词。可以将音频段输入唤醒模型,以损失函数表示唤醒模型对音频段的分类以及输入的音频段实际类别之间的差异,在训练过程中,不断优化唤醒模型的参数直至唤醒模型收敛。如在训练过程中,不断优化唤醒模型的参数,降低损失函数的值,直至损失函数达到最小,或者损失函数小于设置的预设值,确定对唤醒模型完成训练。又如,在训练过程中,不断优化唤醒模型的参数,降低损失函数的值,直至训练过程的迭代次数达到预设的次数。
又如,正样本标记概率1,表示其包括唤醒词的概率为1;负样本标记概率0,表示其包括唤醒词的概率为0。将正样本以及负样本输入待训练的唤醒模型,在训练过程中,不断优化唤醒模型的参数,使输入正样本时,唤醒模型输出的概率向1靠近;输入负样本时,唤醒模型输出的概率向0靠近。通过损失函数表示对应样本的输出概率与样本的实际概率之间的差别时,不断优化唤醒模型的参数使损失函数减小,直至唤醒模型收敛。从而,训练后的唤醒模型,对输入其中的与样本长度相同的音频段,输出一个概率值。可以设置一个概率阈值,当唤醒模型输出的概率值大于概率阈值,表示输入的音频段所属类别为与正样本相同的类别,认为其中包括唤醒词,可以进行唤醒;当输出的概率值小于或等于概率阈值,表示输入的音频段所属类别为与负样本相同的类别,认为其中不包括完整的唤醒词,不能进行唤醒。
可选的,在本申请实施例中,为了提高训练后的唤醒模型的识别准确性,可以获取多个正样本以及多个负样本用于训练。
其中,可以在一次音频采集过程中,指示用户说出多个唤醒词,通过本申请实施例的方法,可以获取到采集到的音频中的多个正样本以及多个负样本。例如图3所示的音频可以获取到3个正样本以及3个负样本。
可选的,也可以采集多路音频,每路音频可以包括一个或多个唤醒词的语音,用于获取多个正样本以及多个负样本。一路音频可以表示由一个音频采集通道采集的时间连续的音频,不同路音频可以是时间不连续的音频,或者是不同音频采集通道采集的音频。
可选的,在本申请实施例中,为例提高唤醒模型的识别准确性,采集的音频可以包括多路。并且可以在多个不同的场景中进行音频采集,不同的场景可以是电子设备进行用于进行唤醒时可能面对的场景。例如,智能家居设备通常在室内被唤醒,则可以采集不同的室内场景下说出唤醒词的音频;手机在室内场景以及室外场景都可能被唤醒,采集不同的室外场景下说出唤醒词的音频,采集不同的室外场景下说出唤醒词的音频。对采集到的音频获取正样本和负样本用于唤醒模型的训练,训练后的唤醒词在各个常用场景下的识别能力更强,由于用户经常在各个常用场景下进行识别,则识别能力更好。
可选的,若采集了多路音频,可以从中选择一路或大于一路的音频。选择大于一路音频时,具体选择数量并不限定,可以根据实际需求设置。具体可以选择信噪比最高的一路或大于一路。
或者可以选择信噪比最高且音量最大的一路或大于一路。
或者可以为信噪比以及音量设置权重,且信噪比的权重大于音量权重,为各路音频按照信噪比由高到低设置由高到低的分数,为各路音频按照音量由高到低设置由高到低的分数,再分别对各路音频算总分数,每路音频的总分数为信噪比的权重乘以该路音频信噪比的分数加上音量的权重乘以该路音频音量的分数。从中选择分数最高的一路或大于一路音频,用于获取样本。
在本申请实施例中,用于获取样本的音频可以由电子设备集成的音频采集设备采集,该电子设备可以先采集音频,根据采集到的音频生成所有用于训练的样本后,再根据样本进行唤醒模型的训练;也可以一边采集音频,一边根据音频生成所有样本后,再根据生成的样本进行训练;也可以一边采集音频,一边根据音频生成样本,一边进行训练。电子设备也可以从其他设备获取采集的音频,根据获取到的音频生成训练样本,可以生成所有用于训练的样本后,再根据样本进行唤醒模型的训练;也可以边生成样本边进行训练。其中,样本包括正样本和负样本。
在本申请实施例中,进行唤醒模型训练的可以为终端设备,也可以是服务器。
在本申请实施例中,采集的音频中包括有唤醒词对应的语音。从采集的音频中检测语音信号,并从根据检测到的语音信号的中间点选取正样本,选取不同于正样本的负样本,从而可以快速选取到较为准确的正样本,快速获取到训练样本数据。通过正样本和负样本训练唤醒模型对包括唤醒词的音频的识别能力,提高训练效率。
本申请另一实施例提供了一种唤醒模型训练方法,在该实施例中,可以对语音检测算法进行调整,使语音检测算法能更准确地检测到音频中的音频信号,即使语音检测算法检测到的语音信号尽可能包括唤醒词,且尽可能接近唤醒词的语音。在该实施例提供的方法中,可以先通过音频对语音检测算法的准确性进行验证以及参数调整,通过参数调整使语音检测算法的准确性达到要求。若语音检测算法检测到的语音信号的长度与该语音信号的实际长度,或者检测到的语音信号的位置与该语音信号的实际位置不同,可以对语音检测算法进行参数调整,直至语音检测算法检测到的语音信号的长度以及位置与该语音信号的实际长度以及位置之间的差异小于预设的差异,确定语音检测算法准确。如图4所示,该实施例提供的唤醒词训练方法可以包括:
步骤S310:通过所述语音检测算法对测试音频进行语音检测,确定所述测试音频中语音信号的起点和终点。
通过语音检测算法对测试音频进行语音检测,确定该语音信号的起点和终点。
其中,该语音检测算法为获取样本时对采集的音频进行语音检测的语音检测算法。
该测试音频可以是包括有唤醒词的音频。例如可以是用于获取样本的音频中的部分音频,如获取样本的音频中的一路或多路音频;又如也可以是与获取样本的音频不同的音频,可以与获取样本的音频按照同样的方式采集获得。
步骤S320:判断检测到的所述测试音频中语音信号的起点和终点是否准确。若不准确,执行步骤S330;若准确,执行步骤S340。
测试音频中各个语音信号的起点和终点可以预先标注。可以判断测试音频中各个语音信号对应标注的起点和终点与检测到的起点和终点位置是否一致,若不一致,则不准确。
可选的,在本申请实施例中,可以具有设置一定的容错率,检测到的各个位置点与对应的标注位置点之间的差异若小于预设的差异,可以判定为准确。其中,起点和终点表示为位置点,可以通过在测试音频中的时间位置确定。测试音频中同一个语言信号的检测到的起点与标注的起点之间的差异,表示一个检测到的位置点与对应的标注位置点之间的差异;测试音频中同一个语言信号的检测到的终点与标注的终点之间的差异,表示一个检测到的位置点与对应的标注位置点之间的差异。
可选的,差异是否小于预设差异的确定方式可以是,总的差异的时间长度小于预设的时间长度,判定准确;总的差异的实际长度占标注的总的音频长度的比例小于预设比例,判定准确。
步骤S330:调整所述语音检测算法的参数,执行步骤S310。
若检测到的测试音频中语音信号的起点和终点不准确,对语言检测算法中的参数进行调整,使语音检测算法检测起点和终点的准确性提高。
对语音检测算法的调整的具体方式在本申请实施例中并不限定。
可选的,可以通过遍历的方式,对各个参数依次由大到小或由小到大等规律性取值,并在每次更换参数值后作为一次调整。
可选的,可以根据预先设置的调整规则进行调整,该调整规则可以包括,检测到的起点相对于标注起点太靠前的调整方式,检测到的起点相对于标注的起点太靠后的调整方式,检测到的终点相对于标注终点太靠前的调整方式,检测到的终点相对于标注的终点太靠后的调整方式。具体各种情况的调整方式可以根据语音信号的特点进行设置,如起点太靠后和终点太靠前,可能是能量阈值过高,导致部分有效的语音信号被滤除;如起点太靠前和终点太靠后,可能是能量阈值过低,导致无效的非语音信号被检测到等等。
可选的,也可以显示调整窗口,由用户从调整窗口中修改语音检测算法中各个参数的值。
对语音检测算法中参数调整后,可以通过调整参数后的语音检测算法再次对测试音频进行语音检测,确定测试音频中语音信号的起点和终点,并判断检测到的起点和终点是否准确。若不准确,再次调整语音检测算法的参数,以调整后的语音检测算法对测试音频进行语音检测,确定测试音频中语音信号的起点和终点,并判断检测到的起点和终点是否准确。
可选的,当判断结果为准确时,可以认为该语音检测算法调整完成,可以用于样本的获取。
可选的,也可以是,在调整以及检测的循环过程中,记录每次检测的准确性。若准确性呈现由低到高再降低的分布,且调整次数达到预设次数,可以选择其中准确性最高时对应的语音检测算法用于样本获取。其中,准确性最高可以是通过差异最小进行表示。
可选的,也可以是,调整次数达到预设次数,选择其中准确性最高时对应的语音检测算法用于样本获取。
步骤S340:通过语音检测算法对采集的音频进行语音检测,从采集的音频中确定语音信号的中间点,所述语音信号中包括唤醒词。
具体的,参数调整完成后的语音检测算法,可以用于从采集的音频中获取样本。可以理解的,步骤S340与语音检测算法的参数调整的相关步骤之间的执行时间差异在本申请实施例中并不限定。
可选的,在本申请实施例中,语音检测算法的参数调整相关步骤,以及根据该语音检测算法获取样本的相关步骤,可以在相同或者不同的电子设备执行。根据该语音检测算法获取样本的相关步骤,以及根据样本对唤醒模型进行训练的相关步骤之间,也可以是在相同或不同的电子设备之间。
在本申请实施例中,获得用于获取样本的语音调整算法后,通过语音检测算法对采集的音频进行语音检测,从采集的音频中确定语音信号的中间点,可以是,通过该语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,确定所述语音信号中起点和终点之间的中间点,具体可以参见前述实施例中相同或相应的步骤,在此不再赘述。
步骤S350:从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本。
步骤S360:从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本。
步骤S370:通过所述正样本和负样本对待训练唤醒模型进行训练。
本申请实施例中,步骤S340至步骤S370的具体执行可以参见前述实施例中相同或相应的步骤,在此不再赘述。
本申请实施例中,在通过语音检测算法获取样本之前,可以先对语音检测算法进行参数调整,使语音检测算法对用于获取样本的音频中语音信号的识别更准确,从而可以获取到准确性更高的正样本和负样本,提高训练后的唤醒模型的识别能力。
在本申请实施例中,测试音频的数量可以远远少于用于获取样本的音频的数量,可以仅对少量音频中语音信号进行起点和终点的标注,则可以获得样本标注更准确的语音检测算法,提高了样本标注准确性和效率。
在本申请实施例中,正样本和负样本为相同时间长度的音频段,定义正样本和负样本的时间长度为预设时间长度。样本的时间长度不同,训练后的唤醒模型对唤醒词的识别准确率具有一定的差异,其中,正样本越接近唤醒词的实际音频段,训练后的唤醒模型对唤醒词的识别准确率可以越高,对应的,正样本的时间长度越接近唤醒词的实际音频段的时间长度,通过样本训练后的唤醒模型对唤醒词的识别准确率可以越高。
若限定为用于对识别某一特定唤醒词的唤醒模型的训练,可以收集说出该唤醒词通常所需的时间,设置为预设时间长度;或者采集使用该唤醒模型的电子设备的用户说出该唤醒词所需时间,设置为预设时间长度。
在本申请实施例提供的唤醒模型训练方法中,一方面,自动标注正样本时,即使唤醒词是已知的特定唤醒词,设置的预设时间长度也不一定合适的时间长度。另一方面,可以并不限定训练识别哪种唤醒词的模型,例如可以训练识别唤醒词“小Q小Q”的唤醒模型,也可以训练识别唤醒词“我在叫你听到了吗”的唤醒模型。由于不同唤醒词完整说出所占时间长度不同,预设时间长度也难以预先确定到一个合适的长度。
因此,本申请还提供了一种实施例,描述了合适的预设时间长度的选取方式,该合适的预设时间长度使唤醒模型对唤醒词的识别能力可以达到最高。具体的,请参见图5,该实施例提供的方法包括:
步骤S410:通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词。
步骤S420:确定所述语音信号中起点和终点之间的中间点。
步骤S430:从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本。
步骤S440:从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本。
步骤S450:通过所述正样本和负样本对待训练唤醒模型进行训练。
步骤S410至步骤S450的具体执行可以参见前述实施例中相同或相应的部分。
其中,每次执行步骤S430至步骤S450时,预设时间长度为相同的时间长度;预设时间长度调整后,执行步骤S430至步骤S450时,以调整后的预设时间长度进行执行。
步骤S460:记录训练后的唤醒模型对的识别准确率。
唤醒模型的识别准确率,或者说唤醒模型对唤醒词的识别准确率,可以是,唤醒模型对多个输入音频的识别结果中,识别正确的输入音频的数量与识别的总的输入音频的数量的比值。对输入音频的识别正确,表示输入音频实际与负样本类别相同,且唤醒模型识别其为与负样本类别相同;输入音频实际与正样本类别相同,唤醒模型识别其与正样本类别相同。若输入音频实际与负样本类别相同,唤醒模型识别其为与正样本类别相同,则识别错误;输入音频实际与正样本类别相同,唤醒模型识别其与负样本类别相同,识别错误。
其中,可以将已知类别的、与该唤醒模型的训练样本具有相同时间长度的输入音频输入唤醒模型,根据唤醒模型的输出的分类结果以及各个输入音频的实际类别,计算唤醒模型的识别准确率,并存储记录。例如,获取的训练样本中部分训练样本用于唤醒模型的训练,部分其他样本用于输入唤醒模型,确定唤醒模型的准确率。
另外,唤醒模型识别的输入音频越多,计算获得的识别准确率越准确。为了获得更有效的准确率,可以使唤醒模型识别超过预设数量的输入音频确定其准确率。
另外,为了获得更有效的比较结果,对于不同预设时间长度训练获得的唤醒模型,使用相同数量的输入音频确定识别准确率。
步骤S470:判断是否获得识别准确率最高的唤醒模型。若否,改变预设时间长度,执行步骤S430;若是,执行步骤S480。
步骤S480:以记录的最高的识别准确率对应的唤醒模型作为用于唤醒词识别的唤醒模型。
在通过一预设时间长度的样本对唤醒模型进行训练后,可以记录本次训练获得的唤醒模型的识别准确率以及存储该唤醒模型。并且,可以改变预设时间长度,再次执行步骤S430至步骤S460,直至获得识别准确率最高的唤醒模型,作为用于唤醒词识别的唤醒模型。也就是说,改变预设时间长度,根据改变后的预设时间长度执行步骤S430至步骤S460后,若还未获得识别准确率最高的唤醒模型,继续改变预设时间长度,继续执行步骤S430至步骤S460。可选的,再次执行步骤S430至步骤S460时,也可以替换为再次执行步骤S410至步骤S460。
其中,对于训练后的每个唤醒模型,可以通过检测确定其识别准确率。具体检测方式并不限定,例如如前所述,可以是,在唤醒模型的输入端输入预设数量的样本,其中可以包括正样本和负样本,计算输出的分类中正确分类数占总的样本数的比例,作为唤醒模型的准确率。
在本申请实施例中,对于当前获得的各个唤醒模型,可以通过判断确定是否获得识别准确率最高的唤醒模型。也就是说,可以在记录本次训练后的唤醒模型的识别准确率,以及判断是否获得识别准确率最高的唤醒模型后,若判断结果为否,改变预设时间长度,根据改变后的预设时间长度执行步骤S430至步骤S470。若步骤S470的判断结果为否,继续改变预设时间长度,执行步骤S430至步骤S470,直至判断结果为是。其中,各个唤醒模型分别通过预设时间长度不同的样本进行训练。步骤S460以及步骤S470的执行先后顺序在本申请实施例中并不限定。
在一种实施方式中,为了更合理地进行准确率高低判断,可以在获得预设个数的唤醒模型后进行判断,即获得预设个不同预设时间长度的样本分别训练的唤醒模型后进行判断,具体判断可以是比较各个唤醒模型的准确率高低,选取准确率最高的唤醒模型。
在一种实施方式中,每次获得唤醒模型后即进行是否获得识别准确率最高的唤醒模型的判断,但是在获得预设个数的唤醒模型后判定的识别准确率最高的唤醒模型为有效的识别准确率最高的唤醒模型。
在一种实施方式中,将所有的正样本和负样本作为输入进行唤醒模型训练时,如果发现算法一直无法收敛时,可能选取的预设长度过短,导致正样本和负样本难以区分。因此,若训练过程中一直无法收敛,可以确定未获得识别准确率最高的唤醒模型,可以适当调整训练音频的截取长度,重新提取一次训练样本,最终可以得到有效的训练样本。
在一种实施方式中,由于样本的时间长度越接近唤醒词的实际时间长度,训练后的唤醒模型的识别准确率越高,则可以规律性改变预设时间长度,如依次增大以及依次减小预设时间长度,若各个唤醒模型分别对应的准确率呈现由小到大再减小的变化规律,则判定获得识别准确率最高的唤醒模型。
具体的,在该实施方式中,可以是,在第一次确定的预设时间长度的基础上,先依次减小预设时间长度,对应减小的每一个预设时间长度,进行样本获取以及唤醒模型的训练,并记录本次训练的唤醒模型的识别准确率以及本次训练的唤醒模型,具体可以是上述步骤S430至步骤S460。
也就是说,可以是,在根据第一次确定的预设时间长度训练唤醒模型并记录本次训练的唤醒模型的识别准确率以及本次训练的唤醒模型后,可以减小预设时间长度,根据减小后的预设时间长度获得样本,训练唤醒模型,记录本次训练的唤醒模型的识别准确率以及本次训练的唤醒模型;若本次的识别准确率相比上一次增加,继续减小预设时间长度,根据减小后的预设时间长度获得样本,训练唤醒模型,记录本次训练的唤醒模型的识别准确率以及本次训练的唤醒模型;直至某一次训练后的唤醒模型的识别准确率相比上一次的识别准确率降低。
若当前记录的识别准确率小于上一次记录的识别准确率,在第一次确定的预设时间长度的基础上,依次增大预设时间长度,对应增大的每一个预设时间长度,进行样本获取以及唤醒模型的训练,并记录本次训练的唤醒模型的准确性以及本次训练的唤醒模型,具体可以是上述步骤S430至步骤S460。若当前记录的识别准确率小于上一次记录的识别准确率,则可以确定获得识别准确率最高的唤醒模型,并且以记录的最高的识别准确率对应的唤醒模型作为用于唤醒词识别的唤醒模型。
也就是说,若当前记录的识别准确率小于上一次记录的识别准确率,可以基于第一次确定的预设时间长度增大预设时间长度,根据增大后的预设时间长度获得样本,训练唤醒模型,记录本次训练的唤醒模型的识别准确率以及本次训练的唤醒模型;若本次的识别准确率相比上一次增加,继续增大预设时间长度,根据增大后的预设时间长度获得样本,训练唤醒模型,记录本次训练的唤醒模型的识别准确率以及本次训练的唤醒模型;直至某一次训练后的唤醒模型的识别准确率相比上一次的识别准确率降低。此时,可以获取记录的所有识别准确率中,最高的识别准确率,以该最高的识别准确率对应的唤醒模型作为最终训练的唤醒模型。
也就是说,在减小预设时间长度的过程中,对应的识别准确率若开始降低,如呈现由低到高再降低的趋势,或者直接呈现降低的趋势,则相对第一次确定的预设时间长度增大预设时间长度。在增大预设时间长度的过程中,对应的识别准确率若开始降低,如呈现由低到高再降低的趋势,或直接呈现降低的趋势,则可以确定在遍历过的所有预设时间长度中,出现了最合适的时间长度,该最合适的时间长度对应准确率最高的唤醒模型。
例如,预设时间长度最开始为5秒,时间变化梯度为1秒,则可以是先从采集的音频中选取包括中间点的5秒音频段作为正样本,选取不同于正样本的5秒音频段作为负样本,通过正样本和负样本对待训练唤醒模型进行训练,获取训练后的具有唤醒词识别能力的唤醒模型,并记录该唤醒模型的识别准确率以及该唤醒模型。减小预设时间长度为4秒,从采集的音频中选取4秒时间长度的正样本,选取4秒时间长度的负样本,通过正样本和负样本对待训练唤醒模型进行训练,获取训练后的具有唤醒词识别能力的唤醒模型,并记录该唤醒模型的识别准确率以及该唤醒模型;若4秒的样本训练的唤醒模型的识别准确率小于5秒的识别准确率,则在5秒的基础上增大预设时间长度为6秒,采集的音频中选取6秒时间长度的正样本,选取6秒时间长度的负样本,通过正样本和负样本对待训练唤醒模型进行训练,获取训练后的具有唤醒词识别能力的唤醒模型,并记录该唤醒模型的识别准确率以及该唤醒模型;若6秒的样本训练的唤醒模型的识别准确率大于5秒的识别准确率,在6秒的基础上增大预设时间长度为7秒,采集的音频中选取7秒时间长度的正样本,选取7秒时间长度的负样本,通过正样本和负样本对待训练唤醒模型进行训练,获取训练后的具有唤醒词识别能力的唤醒模型,并记录该唤醒模型的识别准确率以及该唤醒模型;若7秒的样本训练的唤醒模型的识别准确率小于6秒的识别准确率,则可以确定当前记录的6秒样本训练的唤醒模型识别准确率最高,以该6秒样本训练的唤醒模型作为用于唤醒词识别的唤醒模型。
可以理解的,在本申请实施例中,也可以先增加预设时间长度,再减小预设时间长度。如可以在第一次确定的预设时间长度的基础上,先依次增加预设时间长度,对应增加的每一个预设时间长度,进行样本获取以及唤醒模型的训练,并记录本次训练的唤醒模型的准确性以及本次训练的唤醒模型,具体可以是上述步骤S430至步骤S460。
若当前记录的识别准确率小于上一次记录的识别准确率,在第一次确定的预设时间长度的基础上,依次减小预设时间长度,对应减小的每一个预设时间长度,进行样本获取以及唤醒模型的训练,并记录本次训练的唤醒模型的准确性以及本次训练的唤醒模型,具体可以是上述步骤S430至步骤S460。若当前记录的识别准确率小于上一次记录的识别准确率,则可以确定获得识别准确率最高的唤醒模型,并且以记录的最高的识别准确率对应的唤醒模型作为用于唤醒词识别的唤醒模型。
另外,在本申请实施例中,第一次确定的预设时间长度可以是第一次开始对采集的音频进行训练时确定的时间长度,其具体大小并不限定,可以随机设置。可选的,为了尽快获得识别准确率最高的唤醒模型,也可以根据实际情况设置,如设置为语音信号的长度,若有多个语音信号,则以多个语音信号的平均长度作为该预设时间长度。
可选的,在本申请实施例中,每次增大以及减小的时间梯度并不限定,可以根据实际需求设置。
在本申请实施例中,对应不同的预设时间长度,获得预设时间长度不同的样本训练后的唤醒模型,对应可以获得不同唤醒模型分别对应的识别准确率,从中选取准确率最高的唤醒模型用于唤醒词识别,从而可以在自动标注样本时,标注到更准确的样本,训练获得更高准确率的唤醒模型。
本申请实施例还提供了通过上述实施例获得的唤醒模型进行唤醒词识别的唤醒词识别方法,唤醒词识别方法可以应用于配置有训练后的唤醒模型的电子设备,如图6所示,该方法包括:
步骤S510:通过语音检测算法从待识别音频中确定语音信号的中间点。
步骤S520:从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频。
步骤S530:将所述输入音频输入所述唤醒模型,获取所述唤醒模型的输出结果。
步骤S540:若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
本申请实施例中,待识别音频为用于识别其中是否包括唤醒词的音频,从待识别音频中获取输入音频用于进行识别。将输入音频输入唤醒模型,并获取唤醒模型的输出结果中对该输入音频的分类。若分类结果为正样本,即分类结果表示该输入音频中包括唤醒词,可以唤醒词唤醒后对应的操作。
本申请另一实施例提供的唤醒词识别方法,具体描述了输入音频的获取以及唤醒模型的识别。如图7所示,该唤醒词识别方法包括如下步骤。
步骤S610:通过语音检测算法从待识别音频中确定语音信号的中间点。
待识别音频为用于识别其中是否包括唤醒词的音频。电子设备可以处于音频采集状态,并将采集到的音频作为待识别音频。
可选的,电子设备可以在开启唤醒词识别功能后开启进行音频采集,并对采集到的音频进行唤醒词识别。
可选的,电子设备也可以一直处于音频采集状态,对采集到的音频进行唤醒词识别。
可选的,电子设备在音频采集状态下,可以采集一段时间的音频后,将该音频作为待识别音频进行处理,具体一段时间为多长在本申请实施例中并不限定,至少大于正样本的时间长度。
对待识别音频进行处理,获取用于输入唤醒模型中进行识别的输入音频。
其中,对该待识别的音频的处理可以参照获取训练该唤醒模型的正样本的方式,即输入音频的获取方式可以与正样本的获取方式一致,输入音频的时间长度与正样本的时间长度一致。
具体的,可以通过语音检测算法从待识别音频中确定语音信号的中间点。待识别音频中语音信号的检测可以通过语音检测算法,该语音检测算法可以与获取正样本时的语音检测算法相同。待识别音频中语音信号的中间点的确定也可以是,通过语音检测算法对待识别音频进行语音检测,确定待识别音频中语音信号的起点和终点;确定检测到的语音信号中起点和终点之间的中间点。具体可以参见前述实施例。
步骤S620:从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频。
若正样本是从对应的语音信号的中间点向前和向后分别选取指定时间长度的音频段,则该输入音频的获取也可以是,从待识别音频中语音信号的中间点向前和向后分别选取指定时间长度的音频段,作为输入音频。
可以理解的,若正样本以其他方式选取,输入音频以对应的方式进行选取,使输入音频的选取方式与正样本的选取方式保持一致,尽可能在待识别音频中包括唤醒词的情况下,可以将唤醒词截取到输入音频中。
步骤S630:将所述输入音频输入所述唤醒模型,获取所述唤醒模型的输出结果。
将输入音频输入唤醒模型,唤醒模型可以对训练时的正样本所包括的唤醒词进行识别。也就是说,若输入音频中包括正样本中的唤醒词,则唤醒模型则可以将该输入音频分类为正样本所属的类别,或者说将该输入音频分类为包括唤醒词的类别;若输入音频中不包括正样本中的完整的唤醒词,则唤醒模型则可以将该输入音频分类为负样本所属的类别,或者说将该输入音频分类为不包括唤醒词的类别。
步骤S640:若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
若唤醒模型将输入音频分类为正样本所属的类别,唤醒模型的输出结果为正样本与正样本为相同类别,表示将该输入音频分类为包括唤醒词的类别,可以认为用户进行唤醒操作,可以进行唤醒反馈,执行识别到唤醒词对应的操作。例如,训练时的正样本中包括的唤醒词为“小Q小Q”,则进行识别时,若接收到包括完整的唤醒词“小Q小Q”的音频,可以识别到该唤醒词,进行唤醒反馈。
其中,识别到唤醒词具体对应的操作在本申请实施例中并不限定。如识别到唤醒词时,对应进行应答,并基于该应答采集用户输入的语音信号,对语音信号进行语义分析,判定用户指示的操作,执行用户所指示的操作。又如,识别到唤醒词时,将电子设备由待机状态切换为工作状态。又如,识别到唤醒词时,可以进行声纹识别,判断该声纹是否是匹配预设用户的声纹,如果匹配,则进行解锁操作等。
若唤醒模型的输出结果为负样本所属类别,即与负样本为相同类别,表示将该输入音频分类为不包括唤醒词的类别,可以认为用户未进行唤醒操作,不进行唤醒反馈。
在本申请实施例中,配置该唤醒词识别方法的电子设备可以进行唤醒模型训练,也可以从其他设备获取训练好的唤醒模型,用于唤醒词识别。
在本申请实施例提供的唤醒词识别方法,可以从待识别音频中获取输入音频,并通过前述实施例描述的训练后的唤醒模型进行识别,可以快速且高效地识别到音频中是否包括唤醒词,以执行对应的操作。
本申请实施例还提供了一种唤醒模型训练装置700,请参见图8,该训练装置700可以包括:语音检测模块710,用于通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词;音频处理模块720,用于从采集的音频中确定语音信号的中间点,所述语音信号中包括唤醒词;正样本选取模块730,用于从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本;负样本选取模块740,用于从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本;训练模块750,用于通过所述正样本和负样本对唤醒模型进行训练。
可选的,该训练装置700还可以包括记录模块,用于记录训练后的唤醒模型的识别准确率;时长调整模块,用于改变预设时间长度;该训练装置700的各个模块再次分别执行从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率,直至获得识别准确率最高的唤醒模型,作为用于唤醒词识别的唤醒模型。
可选的,时长调整模块可以在第一次确定的预设时间长度的基础上,依次减小预设时间长度,对应减小的每一个预设时间长度,该训练装置700的各个模块可以分别对应执行步骤从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率;若当前记录的识别准确率小于上一次记录的识别准确率,时长调整模块可以在第一次确定的预设时间长度的基础上,依次增大预设时间长度,对应增大的每一个预设时间长度,该训练装置700的各个模块可以分别对应执行步骤从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率。若当前记录的识别准确率小于上一次记录的识别准确率,训练模块750以记录的最高的识别准确率对应的唤醒模型作为用于唤醒词识别的唤醒模型。
可选的,正样本选取模块730可以用于从所述中间点向前和向后分别选取指定时间长度的音频段,所述指定时间长度为所述预设时间长度的一半。
可选的,该装置700还可以包括算法调整模块,用于通过所述语音检测算法对测试音频进行语音检测,确定所述测试音频中语音信号的起点和终点;判断检测到的所述测试音频中语音信号的起点和终点是否准确;若不准确,调整所述语音检测算法的参数,重新执行所述通过所述语音检测算法对测试音频进行语音检测,确定所述测试音频中语音信号的起点和终点;判断检测的所述测试音频的起点和终点是否准确;若不准确,调整所述语音检测算法的参数的步骤,直至检测的所述测试音频的起点和终点准确。
本申请实施例还提供了一种唤醒词识别装置800,如图9所示,根据前述方法或装置训练装置获得的唤醒模型进行唤醒词识别,该识别装置800包括:音频处理模块810,用于通过语音检测算法从待识别音频中确定语音信号的中间点;输入音频选取模块820,用于从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频;识别模块830,用于将所述输入音频输入所述唤醒模型,获取所述唤醒模型输出结果;操作模块840,用于若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
本申请实施例提供的唤醒模型训练方法、唤醒词识别方法、装置及电子设备,在获取正样本时,可以先通过语音检测算法标记出语音信号的位置,从而粗略标记出唤醒词大致的位置,再以中间点取出对应长度的音频段作为正样本,该正样本的获取方式与具体的唤醒词无关。该训练方法中,可以自动获取正样本以及负样本,不需要手动标注,也不需要预先训练的样本标注模型进行标注,且可以重复性对采集数据做自动化标注,有助于为算法提供更多的训练样本,选择更优的唤醒模型,从而提升唤醒模型的识别率,提升电子设备的唤醒率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述的各个方法实施例之间可以相互参照;上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中,也可以配置在相同的电子设备中,本申请实施例并不限定。
请参考图10,其示出了本申请实施例提供的一种电子设备900的结构框图。该电子设备可以包括一个或多个处理器910(图中仅示出一个),存储器920以及一个或多个程序。其中,所述一个或多个程序被存储在所述存储器920中,并被配置为由所述一个或多个处理器910执行。所述一个或多个程序被处理器执行用于执行前述实施例所描述的方法。
处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电子设备900内的各个部分,通过运行或执行存储在存储器920内的指令、程序、代码集或指令集,以及调用存储在存储器920内的数据,执行电子设备900的各种功能和处理数据。可选地,处理器910可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器910中,单独通过一块通信芯片进行实现。
存储器920可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。
请参考图11,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1000中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1000包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种唤醒模型训练方法,其特征在于,所述方法包括:
通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词;
确定所述语音信号中起点和终点之间的中间点;
从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本,所述正样本为包括完整唤醒词的音频段,其对应的分类为包括唤醒词的类别;
从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本,所述负样本为不包括完整唤醒词的音频段,其对应的分类为不包括唤醒词的类别;
通过所述正样本和负样本对待训练唤醒模型进行训练,使得训练后的唤醒模型将输入其中属于正样本的音频段识别为正样本所属类别,将输入其中属于负样本的音频段识别为负样本所属类别。
2.根据权利要求1所述的方法,其特征在于,所述通过所述正样本和负样本对待训练唤醒模型进行训练之后,还包括:
记录训练后的唤醒模型的识别准确率;
改变预设时间长度,执行步骤从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率,直至获得识别准确率最高的唤醒模型,作为用于唤醒词识别的唤醒模型。
3.根据权利要求2所述的方法,其特征在于,所述记录训练后的唤醒模型对正样本和负样本的识别准确率;改变预设时间长度,执行步骤从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率,直至获得识别准确率最高的唤醒模型,作为用于唤醒词识别的唤醒模型,包括:
在第一次确定的预设时间长度的基础上,依次减小预设时间长度,对应减小的每一个预设时间长度,执行步骤从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率,
若当前记录的识别准确率小于上一次记录的识别准确率,在第一次确定的预设时间长度的基础上,依次增大预设时间长度,对应增大的每一个预设时间长度,执行步骤从所述采集的音频中选取包括所述中间点的预设时间长度的音频段至记录训练后的唤醒模型的识别准确率,
若当前记录的识别准确率小于上一次记录的识别准确率,以记录的最高的识别准确率对应的唤醒模型作为用于唤醒词识别的唤醒模型。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,包括:
从所述中间点向前和向后分别选取指定时间长度的音频段,所述指定时间长度为所述预设时间长度的一半。
5.根据权利要求1所述的方法,其特征在于,所述通过语音检测算法对采集的音频进行语音检测之前,还包括:
通过所述语音检测算法对测试音频进行语音检测,确定所述测试音频中语音信号的起点和终点;
判断检测到的所述测试音频中语音信号的起点和终点是否准确;
若不准确,调整所述语音检测算法的参数,重新执行所述通过所述语音检测算法对测试音频进行语音检测,确定所述测试音频中语音信号的起点和终点;判断检测的所述测试音频的起点和终点是否准确;若不准确,调整所述语音检测算法的参数的步骤,直至检测的所述测试音频的起点和终点准确。
6.一种唤醒词识别方法,其特征在于,根据权利要求1至5任一项所述的方法获得的唤醒模型进行唤醒词识别,所述方法包括:
通过语音检测算法从待识别音频中确定语音信号的中间点;
从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频;
将所述输入音频输入所述唤醒模型,获取所述唤醒模型的输出结果;
若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
7.一种唤醒模型训练装置,其特征在于,所述训练装置包括:
语音检测模块,用于通过语音检测算法对采集的音频进行语音检测,确定所述采集的音频中语音信号的起点和终点,所述语音信号中包括唤醒词;
音频处理模块,用于确定所述语音信号中起点和终点之间的中间点;
正样本选取模块,用于从所述采集的音频中选取包括所述中间点的预设时间长度的音频段,作为正样本,所述正样本为包括完整唤醒词的音频段,其对应的分类为包括唤醒词的类别;
负样本选取模块,用于从所述采集的音频中,选取预设时间长度且不同于所述正样本的音频段,作为负样本,所述负样本为不包括完整唤醒词的音频段,其对应的分类为不包括唤醒词的类别;
训练模块,用于通过所述正样本和负样本对唤醒模型进行训练,使得训练后的唤醒模型将输入其中属于正样本的音频段识别为正样本所属类别,将输入其中属于负样本的音频段识别为负样本所属类别。
8.一种唤醒词识别装置,其特征在于,根据权利要求7所述的训练装置获得的唤醒模型进行唤醒词识别,所述识别装置包括:
音频处理模块,用于通过语音检测算法从待识别音频中确定语音信号的中间点;
输入音频选取模块,用于从所述待识别音频中选取包括所述中间点的预设时间长度的音频段,作为输入音频;
识别模块,用于将所述输入音频输入所述唤醒模型,获取所述唤醒模型的输出结果;
操作模块,用于若所述输出结果表示所述输入音频与正样本为相同类别,执行识别到唤醒词对应的操作。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行用于执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647828.1A CN111833902B (zh) | 2020-07-07 | 2020-07-07 | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647828.1A CN111833902B (zh) | 2020-07-07 | 2020-07-07 | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833902A CN111833902A (zh) | 2020-10-27 |
CN111833902B true CN111833902B (zh) | 2024-07-19 |
Family
ID=72900295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010647828.1A Active CN111833902B (zh) | 2020-07-07 | 2020-07-07 | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833902B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634897B (zh) * | 2020-12-31 | 2022-10-28 | 青岛海尔科技有限公司 | 设备唤醒方法、装置和存储介质及电子装置 |
CN115083390A (zh) * | 2021-03-10 | 2022-09-20 | Oppo广东移动通信有限公司 | 声源距离排序方法及相关产品 |
CN113223499B (zh) * | 2021-04-12 | 2022-11-04 | 青岛信芯微电子科技股份有限公司 | 一种音频负样本的生成方法及装置 |
CN114494930B (zh) * | 2021-09-09 | 2023-09-22 | 马上消费金融股份有限公司 | 语音与图像同步性衡量模型的训练方法及装置 |
CN114078472A (zh) * | 2021-11-08 | 2022-02-22 | 北京核芯达科技有限公司 | 一种低误唤醒率的关键词计算模型的训练方法及装置 |
CN114255742A (zh) * | 2021-11-19 | 2022-03-29 | 北京声智科技有限公司 | 语音端点检测的方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
CA3067776A1 (en) * | 2018-09-28 | 2020-03-28 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128134B (zh) * | 2018-10-11 | 2023-06-06 | 阿里巴巴集团控股有限公司 | 声学模型训练方法和语音唤醒方法、装置及电子设备 |
CN110047485B (zh) * | 2019-05-16 | 2021-09-28 | 北京地平线机器人技术研发有限公司 | 识别唤醒词的方法和装置、介质以及设备 |
CN110428810B (zh) * | 2019-08-30 | 2020-10-30 | 北京声智科技有限公司 | 一种语音唤醒的识别方法、装置及电子设备 |
CN110970016B (zh) * | 2019-10-28 | 2022-08-19 | 苏宁云计算有限公司 | 一种唤醒模型生成方法、智能终端唤醒方法及装置 |
CN110910884B (zh) * | 2019-12-04 | 2022-03-22 | 北京搜狗科技发展有限公司 | 一种唤醒检测方法、装置和介质 |
CN111243583B (zh) * | 2019-12-31 | 2023-03-10 | 深圳市瑞讯云技术有限公司 | 一种系统唤醒方法及装置 |
CN111312222B (zh) * | 2020-02-13 | 2023-09-12 | 北京声智科技有限公司 | 一种唤醒、语音识别模型训练方法及装置 |
CN111312223B (zh) * | 2020-02-20 | 2023-06-30 | 北京声智科技有限公司 | 语音分割模型的训练方法、装置和电子设备 |
-
2020
- 2020-07-07 CN CN202010647828.1A patent/CN111833902B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
CA3067776A1 (en) * | 2018-09-28 | 2020-03-28 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
Also Published As
Publication number | Publication date |
---|---|
CN111833902A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833902B (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
US11127416B2 (en) | Method and apparatus for voice activity detection | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN110021308B (zh) | 语音情绪识别方法、装置、计算机设备和存储介质 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN105529028A (zh) | 语音解析方法和装置 | |
KR20160024858A (ko) | 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
CN102436816A (zh) | 一种语音数据解码方法和装置 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN111951825A (zh) | 一种发音测评方法、介质、装置和计算设备 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN110808050B (zh) | 语音识别方法及智能设备 | |
CN112599152A (zh) | 语音数据标注方法、系统、电子设备及存储介质 | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN113160854A (zh) | 语音交互系统、相关方法、装置及设备 | |
CN109065026B (zh) | 一种录音控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |