CN111276124B - 一种关键词识别方法、装置、设备及可读存储介质 - Google Patents
一种关键词识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111276124B CN111276124B CN202010074563.0A CN202010074563A CN111276124B CN 111276124 B CN111276124 B CN 111276124B CN 202010074563 A CN202010074563 A CN 202010074563A CN 111276124 B CN111276124 B CN 111276124B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- target
- keyword recognition
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000004913 activation Effects 0.000 claims abstract description 175
- 238000001514 detection method Methods 0.000 claims abstract description 79
- 239000011159 matrix material Substances 0.000 claims description 31
- 239000000872 buffer Substances 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 12
- 230000003993 interaction Effects 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011895 specific detection Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种关键词识别方法、装置、设备及可读存储介质,该方法包括以下步骤:对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;如果是,则对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;如果否,则继续对连续语音信号中的未检测帧信号进行语音激活检测。该方法可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求。
Description
技术领域
本发明涉及信号处理技术领域,特别是涉及一种关键词识别方法、装置、设备及可读存储介质。
背景技术
关键词识别(Keyword Spotting,KWS)技术是从连续的自然语音数据流中识别出一个或多个指定词的一种技术。关键词识别主要用于语音监听、人机交互和语音库检索等方面。
现阶段深度神经网络在连续语音识别技术领域得以广泛应用并取得了相比于以前更好的识别性能。例如,为了降低漏检率,基于深度神经网络的连续语音识别系统,处理流程:提取一帧信号特征,更新特征矩阵,接着模型推理进行关键字识别,然后对识别结果进行后处理。可以看出,处理流程主要分三部分:特征提取,模型推理及识别结果后处理。
在计算力和资源充足的情况下,这种处理方法能够比较好的完成检测与识别功能,但是在一些计算力和资源有限的设备(如监控前端)上实施关键词检测时,就会遇到资源不足等瓶颈问题,难以进行关键词识别。
综上所述,如何有效地解决对语音进行关键词识别耗费计算力和资源等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
经过统计发现现有的对语音进行关键词识别,其处理流程中模型推理占用总体效率的95%以上,而且因为频繁的推理,也增加了识别结果后处理的负担。而在实际应用中,连续语音信号中并非一直不断地会存在语音,因此没有必要对连续语音信号一直进行关键词识别。基于此,本发明的目的是提供一种关键词识别方法、装置、设备及可读存储介质,可在识别语音中的关键词时,降低对计算力和资源的需求,以便在计算力和资源有限的设备上实施关键词检测。
为解决上述技术问题,本发明提供如下技术方案:
一种关键词识别方法,包括:
对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;
对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段;
如果是,则对所述目标语音信号进行关键词识别后,将缓存的所述语音激活标志清零;
如果否,则继续对所述连续语音信号中的未检测帧信号进行语音激活检测。
优选地,所述对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段,包括:
统计缓存的各个所述语音激活标志中连续有语音激活标志的比例或个数;
判断所述比例是否大于语音比例,或判断所述个数是否大于语音个数;
如果是,则确定所述目标语音信号有语音段;
如果否,则确定所述目标语音信号无语音段。
优选地,所述对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志的步骤,包括:
从缓存读取所述连续语音信号对应的每一帧信号,并对每一帧信号进行语音激活检测,获得每一帧信号对应的所述语音激活标志;
按照先入先出方式对缓存的所述语音激活标志进行更新。
优选地,在对所述目标语音信号进行关键词识别之前,还包括:对所述连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将所述声音特征存入特征矩阵中;
然后,对所述目标语音信号对应的特征矩阵进行关键词识别。
优选地,对所述目标语音信号对应的特征矩阵进行关键词识别,包括:
利用关键词识别模型对所述特征矩阵进行推理,获得分类标签得分数组;
从所述分类标签得分数组中筛选出目标关键词索引;
在所述目标关键词索引的得分大于分数阈值时,输出所述目标关键词索引对应的目标关键词;
在所述目标关键词索引的得分小于等于分数阈值时,输出无检测结果的提示信息。
优选地,对所述连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将所述声音特征存入特征矩阵中,包括:
对所述连续语音信号中的帧信号进行梅尔频率倒数系数提取,获得每一帧信号对应的梅尔频率倒数系数并存入特征矩阵中。
优选地,在输出所述目标关键词索引对应的目标关键词之后,还包括:
判断所述连续语音信号的帧信号是否已完成语音激活检测;
如果否,则执行所述继续对所述连续语音信号中的未检测帧信号进行语音激活检测的步骤;
如果是,则输出关键词识别已完成的提示信息。
应用本发明实施例所提供的方法,对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;如果是,则对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;如果否,则继续对连续语音信号中的未检测帧信号进行语音激活检测。
在本方法,为了降低资源占用降低对计算力和资源的需求,首先通过对连续语音信号的信号帧进行语音激活检测,然后统计缓存中的各个语音激活标志。如此,基于语音激活标记便可确定出当前缓存的语音激活标志对应的目标语音信号是否存在语音段。而对于无语音段的目标语音信号进行关键词识别,无实质意义,或者是一种资源和计算力的浪费,因此在方法中,仅在有语音段时,对目标语音信号进行关键词识别;而在无语音段时,则无需对目标语音信号进行关键词识别,而是继续对连续语音信号中未检测信号进行语音激活检测。如此,便可降低进行关键词识别的频率。且,为了避免重复处理,在对目标语音信号进行关键词识别之后,还可将缓存的语音激活标志清零。可见,该方法可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求。
一种关键词识别装置,包括:
语音激活检测模块,用于对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;
语音判断模块,用于对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段;
关键词识别模块,用于在所述目标语音信号中存在语音段时,对所述目标语音信号进行关键词识别后,将缓存的所述语音激活标志清零;
所述语音激活检测模块,还用于在所述目标语音信号中未存在语音段时,继续对所述连续语音信号中的未检测帧信号进行语音激活检测。
应用本发明实施例所提供的关键词识别装置,语音激活检测模块,用于对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;语音判断模块,用于对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;关键词识别模块,用于在目标语音信号中存在语音段时,对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;在目标语音信号中未存在语音段时,语音激活检测模块继续对连续语音信号中的未检测帧信号进行语音激活检测。
在本装置中,为了降低资源占用降低对计算力和资源的需求,首先语音激活检测模块通过对连续语音信号的信号帧进行语音激活检测,然后统计缓存中的各个语音激活标志。如此,语音激活检测模块可基于语音激活标记便可确定出当前缓存的语音激活标志对应的目标语音信号是否存在语音段。而对于无语音段的目标语音信号进行关键词识别,无实质意义,或者是一种资源和计算力的浪费,因此在装置中,关键词识别模块仅在有语音段时,对目标语音信号进行关键词识别;而在无语音段时,则无需对目标语音信号进行关键词识别,语音激活检测模块继续对连续语音信号中未检测信号进行语音激活检测。如此,便可降低进行关键词识别的频率。且,为了避免重复处理,在对目标语音信号进行关键词识别之后,还可将缓存的语音激活标志清零。可见,该装置可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求。
一种关键词识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述关键词识别方法的步骤。
本发明实施例所提供的关键词识别设备,基于该关键词识别设备包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现上述关键词识别方法的步骤。因此,关键词识别设备同样具有可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求的技术效果。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述关键词识别方法的步骤。
本发明实施例所提供的可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述关键词识别方法的步骤。因此,存有该计算机程序的可读存储介质,在其计算机程序被执行时,同样具有可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种关键词识别方法的实施流程图;
图2为本发明实施例中一种关键词识别方法的具体实施流程图;
图3为本发明实施例中一种关键词识别装置的结构示意图;
图4为本发明实施例中一种关键词识别设备的结构示意图;
图5为本发明实施例中一种关键词识别设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,基于实施例一,本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与实施例一中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
实施例一:
请参考图1,图1为本发明实施例中一种关键词识别方法的流程图,该方法包括以下步骤:
S101、对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志。
其中,连续语音信号可具体为实时监控采集的声音信号,也可为预先存储的声音信号。
为了减少对无效语音信号进行关键词识别,在本实施例中可对连续语音信号中的帧信号进行语音激活检测。语音激活检测即检测帧信号是否对应语音的信号,然后将每一帧信号对应的语音激活标志进行缓存。语音激活标志可具体采用一个标志用于表示相应帧信号是否为对应语音的信号。具体实现过程,可包括:
步骤一、从缓存读取连续语音信号对应的每一帧信号,并对每一帧信号进行语音激活检测,获得每一帧信号对应的语音激活标志;
步骤二、按照先入先出方式对缓存的语音激活标志进行更新。
为便于描述,下面将上述两个步骤结合起来进行描述。
其中,先入先出方式即FIFO(First Input First Output)。
具体的,可采用语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检测处理一帧信号后得到该帧信号的语音激活标志如vad_flag。以vad_flag=1,表示该帧信号有语音;反之,vad_flag=0,表示该帧没有语音。采用新获得的vad_flag更新语音激活标志历史缓存vad_flag_buf。
S102、对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段。
在对连续语音信号的各帧信号进行语音激活检测的同时,或在缓存中已存在语音激活标志之后,便可对缓存的各个语音激活标志进行统计,以确定出当前缓存的各个语音激活标志对应的目标语音信号是否存在语音段。其中,目标语音信号即为连续语音信号中帧信号对应的语音激活标志写入缓存的一部分/全部语音信号。确定该目标语音信号是否存在语音段,可通过对对应的各帧信号的语音激活标记进行统计而确定。
具体的统计判断过程,可包括:
步骤一、统计缓存的各个语音激活标志中连续有语音激活标志的比例,或个数;
步骤二、判断比例是否大于语音比例,或判断个数是否大于语音个数;
步骤三、如果是,则确定目标语音信号有语音段;
步骤四、如果否,则确定目标语音信号无语音段。
一种具体的判定方式为:对缓存的各个语音激活标志中连续有语音激活标志的比例进行统计,当该比例大于语音比例时,则可确定目标语音信号有语音段,反之则无。其中,该语音比例可根据具体的检测精度而定,当语音比例越高,得到有语音的判断结果的可靠性越高,在实际应用中可根据实际需求进行设置,如可设置为50%。
特别地,考虑到缓存中语音激活标志的总数相对较为稳定,因此还可对缓存中连续有语音激活标志的个数进行统计,当统计个数大于预设语音个数,也可确定目标语音信号有语音段。
即,另一种具体的判定方式为:对缓存的各个语音激活标志中连续有语音激活标志的个数进行统计,当该个数大于语音个数时,则可确定目标语音信号有语音段,反之则无。其中,该语音个数可根据具体的检测精度而定,当语音个数越高,得到有语音的判断结果的可靠性越高,在实际应用中可根据实际需求进行设置。例如,缓存中最大能存放50个语音激活标志时,当连续有语音激活标志的个数大于25时,也可确定目标语音信号中有语音段。
获得判断结果之后,根据判断结果确定具体的后续执行步骤。
具体的,如果是,则执行步骤S103的操作;如果否,无需对当前时刻对应的目标语音信号进行关键词识别处理,具体的,可执行步骤S104的操作。
S103、对目标语音信号进行关键词识别后,将缓存的语音激活标志清零。
为了避免出现语音激活标志对应的目标语音信号被重复处理,在确定需要对目标语音信号进行关键词识别后,便可将缓存的应用激活标志清零。
在本实施例中可采用关键词识别模型对目标语音信号进行关键词识别。其中关键词识别模型可选用诸如深度可分离卷积神经网络(DS-CNN)等关键词识别模型。
S104、继续对连续语音信号中的未检测帧信号进行语音激活检测。
其中,未检测帧信号为该连续语音信号中当前还未进行语音激活检测的帧信号。
具体的,在利用统计结果确定目标语音信号不存在语音时,判断连续语音信号的帧信号是否已完成语音激活检测;如果否,则执行继续对连续语音信号中的未检测帧信号进行语音激活检测的步骤。当然,若连续语音信号的帧信号已全部完成语音激活检测,则可结束对连续语音信号进行关键词识别,并输出关键词识别已完成的提示信息。
语音激活检测的具体实现过程可参加上述步骤S101,在此不再赘述。
应用本发明实施例所提供的方法,对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;如果是,则对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;如果否,则继续对连续语音信号中的未检测帧信号进行语音激活检测。
在本方法,为了降低资源占用降低对计算力和资源的需求,首先通过对连续语音信号的信号帧进行语音激活检测,然后统计缓存中的各个语音激活标志。如此,基于语音激活标记便可确定出当前缓存的语音激活标志对应的目标语音信号是否存在语音段。而对于无语音段的目标语音信号进行关键词识别,无实质意义,或者是一种资源和计算力的浪费,因此在方法中,仅在有语音段时,对目标语音信号进行关键词识别;而在无语音段时,则无需对目标语音信号进行关键词识别,而是继续对连续语音信号中未检测信号进行语音激活检测。如此,便可降低进行关键词识别的频率。且,为了避免重复处理,在对目标语音信号进行关键词识别之后,还可将缓存的语音激活标志清零。可见,该方法可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求。
优选地,考虑到在实时检测场景中,若需不断地存储连续语音信号,在存储资源有限时,可能会出现存储资源不足的瓶颈。因此,在本实施例中,在对目标语音信号进行关键词识别之前,还可对连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将声音特征存入特征矩阵中;然后,对目标语音信号对应的特征矩阵进行关键词识别。如此,便可无需存储大量的连续语音信号的原始数据,仅需存储连续语音信号中每一种信号对应的声音特征即可。
具体的,对连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将声音特征存入特征矩阵中,可对连续语音信号中的帧信号进行梅尔频率倒数系数提取,获得每一帧信号对应的梅尔频率倒数系数并存入特征矩阵中。即可采用MFCC(Mel-Frequency Cepstrum,梅尔频率倒谱)算法对帧信号进行MFCC特征(即梅尔频率倒数系数)提取。
其中,对目标语音信号对应的特征矩阵进行关键词识别,包括:
步骤一、利用关键词识别模型对特征矩阵进行推理,获得分类标签得分数组;
步骤二、从分类标签得分数组中筛选出目标关键词索引;
步骤三、在目标关键词索引的得分大于分数阈值时,输出目标关键词索引对应的目标关键词;
步骤四、在目标关键词索引的得分小于等于分数阈值时,输出无检测结果的提示信息。
具体的,对于关键词识别模型具体如何对特征矩阵进行推理,可具体参见关键词识别模型的具体推理原理和具体的应用流程,在此不再一一赘述。
其中,从分类标签得分数组中筛选出目标关键词索引,可具体为从分类标签得分数组中筛选出得分最高的关键词索引作为目标关键词索引。
为便于本领域技术人员理解,具体如何在上述实施例一的基础上实时上述优选改进措施,下面举例进行说明,请参考图2,图2为本发明实施例中一种关键词识别方法的具体实施流程图。
(step 1)、实时获取连续语音信号,并从连续语音信号中获取一待检测的帧信号。
(step 2)、获取的一帧信号分别送给VAD处理算法模块和MFCC特征提取模块。
其中,MFCC特征提取模块的处理步骤包括:
(a1)、从该帧信号中提取到MFCC特征;
(a2)、利用新提取到的MFCC特征更新MFCC特征历史缓存中的特征矩阵。
其中,VAD处理算法模块处理的处理步骤包括:
(b1)、获取该帧信号的语音激活标志vad_flag。vad_flag=1,表明该帧信号有语音段;反之,vad_flag=0,表明该帧信号没有语音。可采用新获得的vad_flag更新语音激活标志历史缓存vad_flag_buf,即先入先出。
(b2)、统计语音激活标志缓存vad_flag_buf中连续VAD激活标志最大总数vad_cnt。
(b3)、VAD激活标志总数vad_sum小于门限VAD_THREHOLD(如25),则回到step 2。
(b4)、连续VAD激活标志最大总数vad_cnt大于或等于VAD_THREHOLD,则进行step3。
(Step 3)、把当前MFCC特征矩阵做为输入进行关键词识别模型推理。
(step 4)、关键词识别模型推理输出一个分类标签得分数组,找出其最大得分max_score,记录下其对应索引max_index。
(step 5)、处理VAD标志缓存vad_flag_buf,如全部清0,以避免重复对同一段语音信号进行重复关键词识别处理。
(step 6)、如果max_score小于等于门限MAX_SCORE_THREHOLD,则回到step 2。
(step 7)、如果max_score大于MAX_SCORE_THREHOLD,则检测到一个关键词,则根据索引max_index输出一个关键词。
(step 8)、判定是否还有语音信号输入,有则回到step 2。
(step 9)、否则处理循环结束。
可见,结合VAD算法可大幅度降低了关键词识别模型的推理调用次数,有效降低连续语音关键字识别对系统算力和资源的要求,具有识别速度快,复杂度低,漏检率低,鲁棒性好等优点。
实施例二:
相应于上面的方法实施例,本发明实施例还提供了一种关键词识别装置,下文描述的关键词识别装置与上文描述的关键词识别方法可相互对应参照。
参见图3所示,该装置包括以下模块:
语音激活检测模块101,用于对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;
语音判断模块102,用于对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;
关键词识别模块103,用于在目标语音信号中存在语音时,对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;
语音激活检测模块101,还用于在目标语音信号中未存在语音段时,继续对连续语音信号中的未检测帧信号进行语音激活检测。
应用本发明实施例所提供的关键词识别装置,语音激活检测模块,用于对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;语音判断模块,用于对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;关键词识别模块,用于在目标语音信号中存在语音段时,对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;在目标语音信号中未存在语音段时,语音激活检测模块继续对连续语音信号中的未检测帧信号进行语音激活检测。
在本装置中,为了降低资源占用降低对计算力和资源的需求,首先语音激活检测模块通过对连续语音信号的信号帧进行语音激活检测,然后统计缓存中的各个语音激活标志。如此,语音激活检测模块可基于语音激活标记便可确定出当前缓存的语音激活标志对应的目标语音信号是否存在语音段。而对于无语音段的目标语音信号进行关键词识别,无实质意义,或者是一种资源和计算力的浪费,因此在装置中,关键词识别模块仅在有语音段时,对目标语音信号进行关键词识别;而在无语音段时,则无需对目标语音信号进行关键词识别,语音激活检测模块继续对连续语音信号中未检测信号进行语音激活检测。如此,便可降低进行关键词识别的频率。且,为了避免重复处理,在对目标语音信号进行关键词识别之后,还可将缓存的语音激活标志清零。可见,该装置可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求。
在本发明的一种具体实施方式中,语音判断模块102,具体用于统计缓存的各个语音激活标志中连续有语音激活标志的比例或个数;判断比例是否大于语音比例,或判断个数是否大于语音个数;如果是,则确定目标语音信号有语音段;如果否,则确定目标语音信号无语音段。
在本发明的一种具体实施方式中,语音激活检测模块101,具体用于从缓存读取连续语音信号对应的每一帧信号,并对每一帧信号进行语音激活检测,获得每一帧信号对应的语音激活标志;按照先入先出方式对缓存的语音激活标志进行更新。
在本发明的一种具体实施方式中,还包括:
特征提取模块,用于在对目标语音信号进行关键词识别之前,对连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将声音特征存入特征矩阵中;然后,关键词识别模块103,具体用于对目标语音信号对应的特征矩阵进行关键词识别。
在本发明的一种具体实施方式中,关键词识别模块103,具体用于利用关键词识别模型对特征矩阵进行推理,获得分类标签得分数组;从分类标签得分数组中筛选出目标关键词索引;在目标关键词索引的得分大于分数阈值时,输出目标关键词索引对应的目标关键词;在目标关键词索引的得分小于等于分数阈值时,输出无检测结果的提示信息。
在本发明的一种具体实施方式中,特征提取模块,具体用于对连续语音信号中的帧信号进行梅尔频率倒数系数提取,获得每一帧信号对应的梅尔频率倒数系数并存入特征矩阵中。
在本发明的一种具体实施方式中,关键词识别模块103,具体用于在输出目标关键词索引对应的目标关键词之后,在利用统计结果确定目标语音信号不存在语音时,判断连续语音信号的帧信号是否已完成语音激活检测;如果否,则继续对对连续语音信号中的未检测帧信号进行语音激活检测判断连续语音信号的帧信号是否已完成语音激活检测;如果否,则执行继续对连续语音信号中的未检测帧信号进行语音激活检测的步骤;如果是,则输出关键词识别已完成的提示信息。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种关键词识别设备,下文描述的一种关键词识别设备与上文描述的一种关键词识别方法可相互对应参照。
参见图4所示,该关键词识别设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的关键词识别方法的步骤
本发明实施例所提供的关键词识别设备,基于该关键词识别设备包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现上述关键词识别方法的步骤。因此,关键词识别设备同样具有可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求的技术效果。
具体的,请参考图5,为本实施例提供的一种关键词识别设备的具体结构示意图,该关键词识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在关键词识别设备301上执行存储介质330中的一系列指令操作。
关键词识别设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的关键词识别方法中的步骤可以由关键词识别设备的结构实现。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种关键词识别方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的关键词识别方法的步骤。
本发明实施例所提供的可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述关键词识别方法的步骤。因此,存有该计算机程序的可读存储介质,在其计算机程序被执行时,同样具有可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求的技术效果。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
Claims (7)
1.一种关键词识别方法,其特征在于,包括:
对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;
对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段;
如果是,则对所述连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将所述声音特征存入特征矩阵中;对所述目标语音信号对应的特征矩阵进行关键词识别后,将缓存的所述语音激活标志清零;其中,所述特征矩阵包括每一帧信号对应的梅尔频率倒数系数;
如果否,则继续对所述连续语音信号中的未检测帧信号进行语音激活检测;
其中,所述对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段,包括:
统计缓存的各个所述语音激活标志中连续有语音激活标志的比例或个数;
判断所述比例是否大于语音比例,或判断所述个数是否大于语音个数;
如果是,则确定所述目标语音信号有语音段;
如果否,则确定所述目标语音信号无语音段;
其中,对所述目标语音信号对应的特征矩阵进行关键词识别,包括:
利用关键词识别模型对所述特征矩阵进行推理,获得分类标签得分数组;
从所述分类标签得分数组中筛选出目标关键词索引;
在所述目标关键词索引的得分大于分数阈值时,输出所述目标关键词索引对应的目标关键词;
在所述目标关键词索引的得分小于等于分数阈值时,输出无检测结果的提示信息。
2.根据权利要求1所述的关键词识别方法,其特征在于,所述对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志的步骤,包括:
从缓存读取所述连续语音信号对应的每一帧信号,并对每一帧信号进行语音激活检测,获得每一帧信号对应的所述语音激活标志;
按照先入先出方式对缓存的所述语音激活标志进行更新。
3.根据权利要求1所述的关键词识别方法,其特征在于,对所述连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将所述声音特征存入特征矩阵中,包括:
对所述连续语音信号中的帧信号进行梅尔频率倒数系数提取,获得每一帧信号对应的梅尔频率倒数系数并存入特征矩阵中。
4.根据权利要求2所述的关键词识别方法,其特征在于,在输出所述目标关键词索引对应的目标关键词之后,还包括:
判断所述连续语音信号的帧信号是否已完成语音激活检测;
如果否,则执行所述继续对所述连续语音信号中的未检测帧信号进行语音激活检测的步骤;
如果是,则输出关键词识别已完成的提示信息。
5.一种关键词识别装置,其特征在于,包括:
语音激活检测模块,用于对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;
语音判断模块,用于对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段;
关键词识别模块,用于在所述目标语音信号中存在语音段时,对所述目标语音信号进行关键词识别后,将缓存的所述语音激活标志清零;
所述语音激活检测模块,还用于在所述目标语音信号中未存在语音段时,继续对所述连续语音信号中的未检测帧信号进行语音激活检测;
其中,所述语音判断模块,具体用于统计缓存的各个所述语音激活标志中连续有语音激活标志的比例或个数;判断所述比例是否大于语音比例,或判断所述个数是否大于语音个数;如果是,则确定所述目标语音信号有语音段;如果否,则确定所述目标语音信号无语音段;
特征提取模块,用于在对所述目标语音信号进行关键词识别之前,对所述连续语音信号中的帧信号进行特征提取,获得每一帧信号对应的声音特征并将所述声音特征存入特征矩阵中;其中,所述特征矩阵包括每一帧信号对应的梅尔频率倒数系数;
相应地,所述关键词识别模块,具体用于对所述目标语音信号对应的特征矩阵进行关键词识别;
其中,所述关键词识别模块,具体用于利用关键词识别模型对所述特征矩阵进行推理,获得分类标签得分数组;从所述分类标签得分数组中筛选出目标关键词索引;在所述目标关键词索引的得分大于分数阈值时,输出所述目标关键词索引对应的目标关键词;在所述目标关键词索引的得分小于等于分数阈值时,输出无检测结果的提示信息。
6.一种关键词识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述关键词识别方法的步骤。
7.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述关键词识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010074563.0A CN111276124B (zh) | 2020-01-22 | 2020-01-22 | 一种关键词识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010074563.0A CN111276124B (zh) | 2020-01-22 | 2020-01-22 | 一种关键词识别方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111276124A CN111276124A (zh) | 2020-06-12 |
CN111276124B true CN111276124B (zh) | 2023-07-28 |
Family
ID=71003496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010074563.0A Active CN111276124B (zh) | 2020-01-22 | 2020-01-22 | 一种关键词识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111276124B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112272258A (zh) * | 2020-09-25 | 2021-01-26 | 承德石油高等专科学校 | 一种侦听系统 |
CN112397086A (zh) * | 2020-11-05 | 2021-02-23 | 深圳大学 | 语音关键词检测方法、装置、终端设备和存储介质 |
CN112509560B (zh) * | 2020-11-24 | 2021-09-03 | 杭州一知智能科技有限公司 | 一种基于缓存语言模型的语音识别自适应方法和系统 |
CN113889109B (zh) * | 2021-10-21 | 2024-10-22 | 深圳市中科蓝讯科技股份有限公司 | 语音唤醒模式的调节方法、存储介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103680505A (zh) * | 2013-09-03 | 2014-03-26 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103730115B (zh) * | 2013-12-27 | 2016-09-07 | 北京捷成世纪科技股份有限公司 | 一种语音中检测关键词的方法和装置 |
CN105206271A (zh) * | 2015-08-25 | 2015-12-30 | 北京宇音天下科技有限公司 | 智能设备的语音唤醒方法及实现所述方法的系统 |
CN108182937B (zh) * | 2018-01-17 | 2021-04-13 | 出门问问创新科技有限公司 | 关键词识别方法、装置、设备及存储介质 |
US10642939B2 (en) * | 2018-02-24 | 2020-05-05 | Twenty Lane Media, LLC | Systems and methods for generating jokes |
CN108877778B (zh) * | 2018-06-13 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN110246490B (zh) * | 2019-06-26 | 2022-04-19 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
-
2020
- 2020-01-22 CN CN202010074563.0A patent/CN111276124B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111276124A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111276124B (zh) | 一种关键词识别方法、装置、设备及可读存储介质 | |
CN108962227B (zh) | 语音起点和终点检测方法、装置、计算机设备及存储介质 | |
CN108735201B (zh) | 连续语音识别方法、装置、设备和存储介质 | |
EP1455341A2 (en) | Block synchronous decoding | |
CN110767218A (zh) | 端到端语音识别方法、系统、装置及其存储介质 | |
CN111754982B (zh) | 语音通话的噪声消除方法、装置、电子设备及存储介质 | |
US20220301547A1 (en) | Method for processing audio signal, method for training model, device and medium | |
CN110070859B (zh) | 一种语音识别方法及装置 | |
CN109215647A (zh) | 语音唤醒方法、电子设备及非暂态计算机可读存储介质 | |
CN114242064A (zh) | 语音识别方法及装置、语音识别模型的训练方法及装置 | |
CN112581937A (zh) | 一种语音指令的获得方法及装置 | |
CN106504756A (zh) | 嵌入式语音识别系统及方法 | |
CN110675858A (zh) | 基于情绪识别的终端控制方法和装置 | |
CN114842855A (zh) | 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN113254578B (zh) | 用于数据聚类的方法、装置、设备、介质和产品 | |
CN113012682B (zh) | 误唤醒率确定方法、装置、设备、存储介质和程序产品 | |
CN114512128A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN114119972A (zh) | 模型获取及对象处理方法、装置、电子设备及存储介质 | |
CN107437414A (zh) | 基于嵌入式gpu系统的并行化游客识别方法 | |
CN112863548A (zh) | 训练音频检测模型的方法、音频检测方法及其装置 | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 | |
CN111899729A (zh) | 一种语音模型的训练方法、装置、服务器和存储介质 | |
CN115512697B (zh) | 语音敏感词的识别方法、装置、电子设备及存储介质 | |
EP4099320A2 (en) | Method and apparatus of processing speech, electronic device, storage medium, and program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |