[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN104143326B - 一种语音命令识别方法和装置 - Google Patents

一种语音命令识别方法和装置 Download PDF

Info

Publication number
CN104143326B
CN104143326B CN201310645815.0A CN201310645815A CN104143326B CN 104143326 B CN104143326 B CN 104143326B CN 201310645815 A CN201310645815 A CN 201310645815A CN 104143326 B CN104143326 B CN 104143326B
Authority
CN
China
Prior art keywords
voice
model
user
acoustic
order word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310645815.0A
Other languages
English (en)
Other versions
CN104143326A (zh
Inventor
岳帅
张翔
卢鲤
饶丰
王尔玉
刘海波
陈波
刘荐
李露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310645815.0A priority Critical patent/CN104143326B/zh
Priority to PCT/CN2014/079766 priority patent/WO2015081681A1/en
Publication of CN104143326A publication Critical patent/CN104143326A/zh
Priority to US14/958,606 priority patent/US10013985B2/en
Application granted granted Critical
Publication of CN104143326B publication Critical patent/CN104143326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Collating Specific Patterns (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施方式提出一种语音命令识别方法和装置。方法包括:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。本发明实施方式可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高安全性。

Description

一种语音命令识别方法和装置
技术领域
本发明实施方式涉及自动语音识别(ASR,Automatic Speech Recognition)技术领域,更具体地,涉及一种语音命令识别方法和装置。
背景技术
自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程,主要包括模型训练、解码网络构建以及解码等过程。
语音命令识别技术是自动语音识别技术的一项具体应用,其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备,只要说出命令词的语音,则语音命令识别系统会自动识别出该语音对应的字符串,如果该字符串为命令词对应的字符串,则触发对应的操作。然而,目前语音命令识别系统通常并不对用户进行区分,这会带来显著的安全性问题。
例如目前的语音唤醒系统就是一种典型的语音命令识别系统,用户可以说出唤醒命令,系统识别用户说出的语音,如果识别出是唤醒命令则唤醒(即启动)对应的设备,否则不唤醒对应的设备。语音命令识别系统的评测标准通常包括误识率和拒认率两个部分。误识率指用户未发出语音命令,但系统却错误的触发了该命令对应的操作。拒认率指用户发出了语音命令,但系统却没有反应,即没有触发该命令对应的操作。误识率和拒认率越低,证明语音命令识别系统越稳定。
当前已公开的这些技术中,存在这样的问题,当其他人发出相应的命令时,由于唤醒系统本身不具有识别用户身份的能力,所以用户自己的系统也会被唤醒,这就大大增加了用户使用时的风险。由于每个人的声音都具有唯一性,通过声纹识别来确认用户身份具有其独特的优越性,也只有这种方式才能真正实现唤醒者的不可替代性,即使其他人故意要唤醒系统,系统也可以判断不是用户本人而拒绝被唤醒。
发明内容
本发明实施方式提出一种语音命令识别方法,以提高安全性。
本发明实施方式提出一种语音命令识别装置,以提高安全性。
本发明实施方式的技术方案如下:
一种语音命令识别方法,该方法包括:
获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;
接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;
当确定所述语音源自所述用户时,识别所述语音中的命令词。
一种语音命令识别装置,其特征在于,包括模型获取单元、用户识别单元和命令词识别单元,其中:
模型获取单元,用于获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;
用户识别单元,用于接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;
命令词识别单元,用于当确定所述语音源自所述用户时,识别所述语音中的命令词。
从上述技术方案可以看出,在本发明实施方式中,获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。应用本发明实施方式之后,可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高了安全性。
而且,在语音唤醒应用中,本发明实施方式可以将使用声纹识别的方式来确认用户的身份,可保证系统只能由用户本身唤醒。
附图说明
图1为根据本发明实施方式语音命令识别方法流程图;
图2为根据本发明实施方式的用户声纹注册流程图;
图3为根据本发明实施方式的基于用户语音的语音唤醒流程图;
图4为根据本发明实施方式的语音命令识别装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
由于每个人的声音都具有唯一性,通过声纹识别来确认用户身份具有其独特的优越性。比如,声纹识别来确认用户身份可以真正实现唤醒者的不可替代性,即使其他人故意要唤醒系统,系统也可以判断不是用户本人而拒绝被唤醒。
声纹识别也称为说话人识别。声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果。文本无关的说话人识别由于不需要存储特定的文本密码,而直接使用说话人的语音作为密码,可以广泛的应用在互联网用户身份认证等安全领域。
本发明实施方式可以适用于针对文本有关以及文本无关的应用,尤其适用于针对文本有关的应用,比如语音唤醒应用。
图1为根据本发明实施方式语音命令识别方法流程图。
如图1所示,该方法包括:
步骤101:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型。
可以利用包含大量说话人的语音数据训练一个说话人无关的广义背景模型(Universal Background Model,UBM),然后利用可以获得的少量当前说话人的语音数据,通过最大后验概率(Maximum A Posteriori,MAP)或者最大似然线性回归(MaximumLikelihood Linear Regression,MLLR)等准则,训练得到说话人的模型,以作为用户的声纹模型。
在一个实施方式中:
可以使用大量语音数据训练出一个基于混合高斯模型(GMM)的广义背景模型(UBM)。另外,还可以通过麦克风等语音采集设备采集用户口述命令词的注册语音;再从注册语音中提取用户语音特征;并利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型,以作为所述用户的声纹模型。
通过注册用户的声音(声纹),可以便于后续过程中对语音进行鉴定,以确定所检测的语音是否由注册用户所发出。
步骤102:接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户。
在做说话人身份判决的时候,分别针对待测试语音数据计算说话人对应的GMM模型和UBM模型似然度,并通过对数似然比(Logistic Likelihood Ratio,LLR)这个度量来计算最终的得分。对于说话人确认任务来说,通过比较与预先设定的一个门限(Threshold)的关系,来进行判决,而对于说话人识别来说,模型得分高的则为说话人识别结果。
在用户完成语音注册后,就具有了识别该用户的能力。在实际应用中,用户说出其对应的文字密码的语音,使用该语音与用户之前注册的声纹模型进行比对,即可判定是否是之前注册的用户所发出的命令。
在一个实施方式中:
在这里,可以确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度;当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时,确定该语音源自所述用户。
具体流程如下:首先对输入的语音进行声纹特征的提取,然后使用该特征序列与目标人的声纹模型和广义背景模型(UBM)进行相似度得分的计算,一般采用log似然比得分,即目标人模型上的似然值与UBM上的似然值的差值Score:
score = 1 T ( log p ( X | λ spk ) - log p ( X | λ ubm ) ) ; 其中底数示范性为e;
其中:
X为测试的语音特征,T为语音特征的帧数,λspk为目标说话人模型,λubm为UBM模型;P(x|^)是特征序列x与模型^的相似度,由计算混合高斯模型的似然度函数得出。
当Score得分大于设定的阈值的时候,可以判定用户为注册时的用户,即合法用户。当Score得分小于设定的阈值的时候,判定为非法用户,拒绝进一步的处理,返回录音阶段。
步骤103:当确定所述语音源自所述用户时,识别所述语音中的命令词。
在这里,当确定所述语音源自所述用户时,可以基于多种实施方式来识别所述语音中的命令词。
比如:
第一步骤,对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,该背景声学模型是音素精度较低的声学模型。
第二步骤,对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,该前景声学模型是音素精度很高的声学模型,目的是为了提高对命令词语音的识别精度。
当然,上述第一步骤和第二步骤并不一定严格按照先后顺序,也可以同时进行,或者第二步骤先执行。
第三步骤,依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径。
第四步骤,依据所述解码网络对输入的语音进行解码。
第五步骤,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
例如,本发明可以应用在语音唤醒系统中,假设唤醒命令为“微信秘书”,当用户说出“微信秘书”的语音时,系统会自动识别出该语音的字符串“微信秘书”,从而唤醒“微信秘书”这个功能。
所述声学模型是语音识别系统中最为重要的部分之一,目前的主流语音识别系统多采用隐马尔科夫模型(HMM,Hidden Markov Model)进行建模,隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。在声学模型中描述了语音与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。
本发明中所述声学模型训练计算的具体计算方法可以采用现有的成熟的训练计算方法,例如可以使用HTK的工具和流程,对语音进行声学模型训练计算得到对应的声学模型。其中:
第一步骤中,所述对语音进行低于指定精度的声学模型训练计算的过程中,需要使用尽可能多的语音数据,为了能够低于指定的精度,其中具体包括:用于描述音素的混合高斯模型(GMM,Gaussian mixture model)中的高斯数量B需要低于指定值,例如在本发明的优选实施例中,所述B可以为4或8。所述高斯混合模型可以有效地提取语音信号中的说话人特征、剔除语义等冗余信息,从而较充分地反映说话人个性特征的统计分布,是目前语音识别的主流技术。
第二步骤中,所述对语音进行高于指定精度的声学模型训练计算的过程中,需要使用尽可能多的语音数据,为了能够高于指定的精度,其中具体包括:用于描述音素的混合高斯模型中的高斯数量Q高于指定值,且所述Q需要大于B,例如在本发明的优选实施中,所述Q需要远大于B,例如所述Q为16或32或32以上的值。
在一种具体实施例中,第一步骤中所述对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,可以用精度较低的单音素(monophone)进行训练计算,也可以用精度较高的三音素(triphone)进行训练计算,但是需要对三音素进行聚类处理。
例如第一步骤具体可以为:对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型。其中,用于描述所述单音素的GMM中的高斯数量B需要低于指定值,例如在本发明的优选实施例中,所述B可以为4或8。
或者第一步骤具体可以为:对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。其中,用于描述所述三音素的GMM中的高斯数量B需要低于指定值,例如在本发明的优选实施例中,所述B可以为4或8。
在一种具体实施例中,第二步骤中所述对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,可以用精度较高的三音素进行训练计算;也可以用精度较低的单音素进行训练计算,但是这些单音素序列需要是增强的隐马尔可夫模型(HMM,HiddenMarkov Model)序列,例如用于描述这些单音素的GMM中的高斯数量要为很高的值,通常为32或更高的值。
例如第二步骤具体可以为:对语音进行三音素的声学模型训练,得到三音素声学模型,其中用于描述该三音素的GMM的高斯数量Q需要高于指定值,例如在本发明的优选实施例中,所述Q为16或32或32以上的值。之后利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型。
或者第二步骤具体也可以为:对语音进行单音素的声学模型训练计算,得到单音素声学模型,其中用于描述单音素的GMM中的高斯数量Q高于指定高值,例如Q为32或更高的值,之后利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
在这里,当确定所述语音源自所述用户时,可以基于多种方式来识别语音中的命令词。
在一个实施方式中:
对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;
对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
在一个实施方式中:
所述对语音进行低于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量B低于指定值;
所述对语音进行高于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量Q高于指定值,且所述Q大于B。
在一个实施方式中:
对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,具体为:
对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型;
或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
在一个实施方式中:
对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,具体为:
对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型;
对语音进行单音素的声学模型训练计算,其中用于描述单音素的混合高斯模型中的高斯数量高于指定高值,利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
在一个实施方式中:
依据所述前景声学模型和背景声学模型构建解码网络,具体包括:
从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径;
依据所述背景声学模型的所有音素构建对应的解码路径。
优选地,在接收语音与提取所述语音的声纹特征之间,对所述语音执行语音活动检测,而且当确定所述语音中包含人类语音后,才提取所述语音的声纹特征。
图2为根据本发明实施方式的用户声纹注册流程图。
如图2所示,该流程包括:
步骤201:采集用户口述命令词的注册语音。
步骤202:从注册语音中提取用户语音特征。
步骤203:利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型,以作为所述用户的声纹模型。
具体地,在用户进行声纹注册的时候,用户首先在设备上说出命令词。比如,在唤醒应用中,文字密码就是命令词本身。设备通过麦克风采集该用户说出唤醒命令词时的语音,然后本地或通过后台服务器进行与命令词相关的声纹模型训练。比如,首先将设备麦克风采集的语音数据压缩后通过网络传递给后台服务器,后台服务器获得设备所传的语音数据后,提取说话人以及命令词相关的信息特征(如mfcc,lpcc等语音特征),然后使用语音特征序列进行声纹模型的训练,包括:首先使用大量语音数据训练一个基于GMM模型的广义背景模型,随后使用用户的语音特征通过最大后验自适应的方式在UBM模型上自适应得到该用户的GMM模型。
在得到广义背景模型和该用户的GMM模型后,将这两个模型通过网络等传输方式发到设备中,即完成了声纹的注册。这里,声纹模型的训练可以是在云端的服务器上,也可以在设备本地进行。
可以将本发明应用到多种应用环境中,比如系统唤醒应用。通过使用声纹识别的方式来代替确认用户的身份,可保证系统只能由用户本身唤醒,从而提高了系统的安全性。
图3为根据本发明实施方式的基于用户语音的语音唤醒流程图。
在系统唤醒应用中,可以首先提示用户注册语音,注册语音包含唤醒命令词,再基于注册语音获取用户的声纹模型。注册完成后,当用户在使用时,由语音活动检测(VAD)模块负责检测从话筒中输入的语音是否包含人说话的部分。如果包含,那么就将语音信号送入说话人识别模块,由说话人识别模块检测是否是用户本人发出的命令。如果是用户本人发出的命令,那么再将语音信号送入命令识别模块,判断用户是否要唤醒系统。
基于本发明实施方式可以识别多个命令词,并可以将这些命令词做进一步的应用,比如去打电话、发短信等等,而不仅仅是唤醒系统这一种功能。
基于上述分析,本发明实施方式还提出了一种语音命令识别装置。
图4为根据本发明实施方式的语音命令识别装置结构图。
如图4所示,该装置包括模型获取单元401、用户识别单元402和命令词识别单元403,其中:
模型获取单元401,用于获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;
用户识别单元402,用于接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;
命令词识别单元403,用于当确定所述语音源自所述用户时,识别所述语音中的命令词。
在一个实施方式中:
用户识别单元402,用于确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度;当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时,确定该语音源自注册用户。
在一个实施方式中:
模型获取单元401,用于采集用户口述命令词的注册语音;从所述注册语音中提取用户语音特征;利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型,以作为所述用户的声纹模型。
在一个实施方式中:
命令词识别单元403,用于对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
在一个实施方式中:
所述对语音进行低于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量B低于指定值;
所述对语音进行高于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量Q高于指定值,且所述Q大于B。
在一个实施方式中:
命令词识别单元403,用于:
对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型;
或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
在一个实施方式中:
命令词识别单元403,用于:
对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型;
对语音进行单音素的声学模型训练计算,其中用于描述单音素的混合高斯模型中的高斯数量高于指定高值,利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
在一个实施方式中:
命令词识别单元403,用于从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径;依据所述背景声学模型的所有音素构建对应的解码路径。
在一个实施方式中:
进一步包括语音活动检测单元(未示出);
所述语音活动检测单元,用于对所述语音执行语音活动检测,而且只有当确定所述语音中包含人类语音后,所述用户识别单元才提取所述语音的声纹特征。
可以将图1所示方法集成到各种网络的硬件实体当中。比如,可以将语音命令识别方法集成到:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等设备之中。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的语音命令识别方法。比如,可以遵循一定规范的应用程序接口,将语音命令识别方法编写为安装到自然语言处理服务器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的语音命令识别方法。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的语音命令识别方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的语音命令识别方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。应用本发明实施方式之后,可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高了安全性。
而且,在语音唤醒应用中,本发明实施方式可以将使用声纹识别的方式来确认用户的身份,可保证系统只能由用户本身唤醒。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种语音命令识别方法,其特征在于,该方法包括:
获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;
接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;
当确定所述语音源自所述用户时,识别所述语音中的命令词;
所述识别所述语音中的命令词包括:
对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;
对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
2.根据权利要求1所述的语音命令识别方法,其特征在于,所述基于语音的声纹特征、广义背景模型和用户声纹模型确定该语音是否源自所述用户包括:
确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度;
当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时,确定该语音源自所述用户。
3.根据权利要求1所述的语音命令识别方法,其特征在于,所述基于用户的注册语音获取用户的声纹模型包括:
采集用户口述命令词的注册语音;
从所述注册语音中提取用户语音特征;
利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型,以作为所述用户的声纹模型。
4.根据权利要求1所述的语音命令识别方法,其特征在于,所述对语音进行低于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量B低于指定值;
所述对语音进行高于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量Q高于指定值,且所述Q大于B。
5.根据权利要求1所述的语音命令识别方法,其特征在于,所述对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,具体为:
对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型;
或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
6.根据权利要求1所述的语音命令识别方法,其特征在于,所述对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,具体为:
对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型。
7.根据权利要求1所述的语音命令识别方法,其特征在于,所述依据所述前景声学模型和背景声学模型构建解码网络,具体包括:
从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径;
依据所述背景声学模型的所有音素构建对应的解码路径。
8.根据权利要求1-7中任一项所述的语音命令识别方法,其特征在于,该方法进一步包括:
在接收语音与提取所述语音的声纹特征之间,对所述语音执行语音活动检测,而且当确定所述语音中包含人类语音后,才提取所述语音的声纹特征。
9.一种语音命令识别装置,其特征在于,包括模型获取单元、用户识别单元和命令词识别单元,其中:
模型获取单元,用于获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;
用户识别单元,用于接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;
命令词识别单元,用于当确定所述语音源自所述用户时,识别所述语音中的命令词;所述识别所述语音中的命令词包括:对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
10.根据权利要求9所述的语音命令识别装置,其特征在于,
用户识别单元,用于确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度;当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时,确定该语音源自注册用户。
11.根据权利要求9所述的语音命令识别装置,其特征在于,
模型获取单元,用于采集用户口述命令词的注册语音;从所述注册语音中提取用户语音特征;利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型,以作为所述用户的声纹模型。
12.根据权利要求9所述的语音命令识别装置,其特征在于,
所述对语音进行低于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量B低于指定值;
所述对语音进行高于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量Q高于指定值,且所述Q大于B。
13.根据权利要求9所述的语音命令识别装置,其特征在于,
命令词识别单元,用于:
对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型;
或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
14.根据权利要求9所述的语音命令识别装置,其特征在于,
命令词识别单元,用于:
对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型。
15.根据权利要求9所述的语音命令识别装置,其特征在于,
命令词识别单元,用于从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径;依据所述背景声学模型的所有音素构建对应的解码路径。
16.根据权利要求9-15中任一项所述的语音命令识别装置,其特征在于,进一步包括语音活动检测单元;
所述语音活动检测单元,用于对所述语音执行语音活动检测,而且只有当确定所述语音中包含人类语音后,所述用户识别单元才提取所述语音的声纹特征。
CN201310645815.0A 2013-12-03 2013-12-03 一种语音命令识别方法和装置 Active CN104143326B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310645815.0A CN104143326B (zh) 2013-12-03 2013-12-03 一种语音命令识别方法和装置
PCT/CN2014/079766 WO2015081681A1 (en) 2013-12-03 2014-06-12 Systems and methods for audio command recognition
US14/958,606 US10013985B2 (en) 2013-12-03 2015-12-03 Systems and methods for audio command recognition with speaker authentication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310645815.0A CN104143326B (zh) 2013-12-03 2013-12-03 一种语音命令识别方法和装置

Publications (2)

Publication Number Publication Date
CN104143326A CN104143326A (zh) 2014-11-12
CN104143326B true CN104143326B (zh) 2016-11-02

Family

ID=51852484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310645815.0A Active CN104143326B (zh) 2013-12-03 2013-12-03 一种语音命令识别方法和装置

Country Status (3)

Country Link
US (1) US10013985B2 (zh)
CN (1) CN104143326B (zh)
WO (1) WO2015081681A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US12135535B2 (en) 2017-09-15 2024-11-05 Kohler Co. User identity in household appliances

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6564058B2 (ja) 2015-04-10 2019-08-21 華為技術有限公司Huawei Technologies Co.,Ltd. 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
CN106773742B (zh) * 2015-11-23 2019-10-25 宏碁股份有限公司 语音控制方法及语音控制系统
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
CN105740686B (zh) * 2016-01-28 2019-04-23 百度在线网络技术(北京)有限公司 应用的控制方法和装置
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US20170330565A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Handling Responses to Speech Processing
GB2551209B (en) * 2016-06-06 2019-12-04 Cirrus Logic Int Semiconductor Ltd Voice user interface
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
CN106128464B (zh) * 2016-06-12 2019-05-31 百度在线网络技术(北京)有限公司 Ubm分字模型的建立方法、声纹特征生成方法及装置
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10096321B2 (en) * 2016-08-22 2018-10-09 Intel Corporation Reverberation compensation for far-field speaker recognition
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
CN107919116B (zh) * 2016-10-11 2019-09-13 芋头科技(杭州)有限公司 一种语音激活检测方法及装置
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
CN108983685A (zh) * 2017-06-02 2018-12-11 鸿富锦精密电子(天津)有限公司 语音监控系统及方法
CN109102801A (zh) * 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置
CN108133371A (zh) * 2017-06-23 2018-06-08 广东网金控股股份有限公司 一种基于语音识别的数据处理方法、装置及处理终端
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
EP3451330A1 (en) 2017-08-31 2019-03-06 Thomson Licensing Apparatus and method for residential speaker recognition
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
CN107481718B (zh) * 2017-09-20 2019-07-05 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US20190303400A1 (en) * 2017-09-29 2019-10-03 Axwave, Inc. Using selected groups of users for audio fingerprinting
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
CN109784128A (zh) * 2017-11-14 2019-05-21 幻视互动(北京)科技有限公司 具有文本及语音处理功能的混合现实智能眼镜
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11322122B2 (en) * 2018-01-10 2022-05-03 Qrs Music Technologies, Inc. Musical activity system
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) * 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
CN108389578B (zh) * 2018-02-09 2020-10-02 深圳市鹰硕技术有限公司 智能教室语音控制系统
EP3786945B1 (en) * 2018-04-12 2023-07-19 Spotify AB Voice-based authentication
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
CN108899033B (zh) * 2018-05-23 2021-09-10 出门问问信息科技有限公司 一种确定说话人特征的方法及装置
CN108771491A (zh) * 2018-05-24 2018-11-09 宁波国盛电器有限公司 一种三明治机
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN110544473B (zh) * 2018-05-28 2022-11-08 百度在线网络技术(北京)有限公司 语音交互方法和装置
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11222641B2 (en) * 2018-10-05 2022-01-11 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
CN109524011A (zh) * 2018-10-22 2019-03-26 四川虹美智能科技有限公司 一种基于声纹识别的冰箱唤醒方法及装置
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109040905A (zh) * 2018-11-02 2018-12-18 北京羽扇智信息科技有限公司 一种低功耗音箱及其工作方法
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN109920435B (zh) * 2019-04-09 2021-04-06 厦门快商通信息咨询有限公司 一种声纹识别方法及声纹识别装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) * 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110570869B (zh) * 2019-08-09 2022-01-14 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110806849A (zh) * 2019-10-30 2020-02-18 歌尔科技有限公司 智能设备及其音量调节方法和计算机可读存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111091836A (zh) * 2019-12-25 2020-05-01 武汉九元之泰电子科技有限公司 一种基于大数据的智能声纹识别方法
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111210829B (zh) * 2020-02-19 2024-07-30 腾讯科技(深圳)有限公司 语音识别方法、装置、系统、设备和计算机可读存储介质
CN111341320B (zh) * 2020-02-28 2023-04-14 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN113571054B (zh) * 2020-04-28 2023-08-15 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN113660670B (zh) * 2020-05-12 2024-02-06 哈尔滨工程大学 基于射频指纹的无线设备身份认证方法及其装置
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
CN111883121A (zh) * 2020-07-20 2020-11-03 北京声智科技有限公司 唤醒方法、装置及电子设备
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN112992174A (zh) * 2021-02-03 2021-06-18 深圳壹秘科技有限公司 一种语音分析方法及其语音记录装置
CN112951243A (zh) * 2021-02-07 2021-06-11 深圳市汇顶科技股份有限公司 语音唤醒方法、装置、芯片、电子设备及存储介质
CN113077798B (zh) * 2021-04-01 2022-11-22 山西云芯新一代信息技术研究院有限公司 一种居家老人呼救设备
US11996087B2 (en) 2021-04-30 2024-05-28 Comcast Cable Communications, Llc Method and apparatus for intelligent voice recognition
CN113888777B (zh) * 2021-09-08 2023-08-18 南京金盾公共安全技术研究院有限公司 一种基于云端机器学习的声纹开锁方法及装置
CN113506574A (zh) * 2021-09-09 2021-10-15 深圳市友杰智新科技有限公司 自定义命令词的识别方法、装置和计算机设备
CN114648994A (zh) * 2022-02-23 2022-06-21 厦门快商通科技股份有限公司 一种声纹鉴定比对推荐方法、装置、电子设备及存储介质
CN116798400A (zh) * 2022-03-11 2023-09-22 保时捷(上海)数字科技有限公司 基于计算机程序实现的语音合成方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2058797A1 (en) * 2007-11-12 2009-05-13 Harman Becker Automotive Systems GmbH Discrimination between foreground speech and background noise
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
US6519563B1 (en) * 1999-02-16 2003-02-11 Lucent Technologies Inc. Background model design for flexible and portable speaker verification systems
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
US7162641B1 (en) * 2000-06-13 2007-01-09 International Business Machines Corporation Weight based background discriminant functions in authentication systems
US7424427B2 (en) * 2002-10-17 2008-09-09 Verizon Corporate Services Group Inc. Systems and methods for classifying audio into broad phoneme classes
US20050049871A1 (en) * 2003-08-26 2005-03-03 Yifan Gong Speaker-dependent recognition of voice command embedded in arbitrary utterance
WO2005055200A1 (en) * 2003-12-05 2005-06-16 Queensland University Of Technology Model adaptation system and method for speaker recognition
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
US7529669B2 (en) * 2006-06-14 2009-05-05 Nec Laboratories America, Inc. Voice-based multimodal speaker authentication using adaptive training and applications thereof
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
ATE457511T1 (de) * 2007-10-10 2010-02-15 Harman Becker Automotive Sys Sprechererkennung
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8422889B2 (en) * 2010-09-16 2013-04-16 Greenwave Reality, Pte Ltd. Noise detector in a light bulb
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN102316162A (zh) * 2011-09-01 2012-01-11 深圳市子栋科技有限公司 基于语音命令的车辆远程控制方法、装置及系统
CN102510426A (zh) * 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US9269368B2 (en) * 2013-03-15 2016-02-23 Broadcom Corporation Speaker-identification-assisted uplink speech processing systems and methods
CN110096253B (zh) * 2013-07-11 2022-08-30 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2058797A1 (en) * 2007-11-12 2009-05-13 Harman Becker Automotive Systems GmbH Discrimination between foreground speech and background noise
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US12135535B2 (en) 2017-09-15 2024-11-05 Kohler Co. User identity in household appliances

Also Published As

Publication number Publication date
CN104143326A (zh) 2014-11-12
US20160086609A1 (en) 2016-03-24
US10013985B2 (en) 2018-07-03
WO2015081681A1 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
CN104143326B (zh) 一种语音命令识别方法和装置
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN103971685B (zh) 语音命令识别方法和系统
KR101323061B1 (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
US9336781B2 (en) Content-aware speaker recognition
CN105938716B (zh) 一种基于多精度拟合的样本复制语音自动检测方法
TWI527023B (zh) A voiceprint recognition method and apparatus
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
CN105096940B (zh) 用于进行语音识别的方法和装置
Singh et al. Applications of speaker recognition
US20140214417A1 (en) Method and device for voiceprint recognition
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN101923855A (zh) 文本无关的声纹识别系统
JP2016080916A (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN105940407A (zh) 用于评估音频口令的强度的系统和方法
KR20060070603A (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
WO2021047319A1 (zh) 基于语音的个人信用评估方法、装置、终端及存储介质
CN109036471B (zh) 语音端点检测方法及设备
CN110111798B (zh) 一种识别说话人的方法、终端及计算机可读存储介质
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
CN112992155A (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200821

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.