[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110970016B - 一种唤醒模型生成方法、智能终端唤醒方法及装置 - Google Patents

一种唤醒模型生成方法、智能终端唤醒方法及装置 Download PDF

Info

Publication number
CN110970016B
CN110970016B CN201911028892.5A CN201911028892A CN110970016B CN 110970016 B CN110970016 B CN 110970016B CN 201911028892 A CN201911028892 A CN 201911028892A CN 110970016 B CN110970016 B CN 110970016B
Authority
CN
China
Prior art keywords
audio
awakening
wake
word
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911028892.5A
Other languages
English (en)
Other versions
CN110970016A (zh
Inventor
白二伟
倪合强
宋志�
姚寿柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Biying Technology Co ltd
Jiangsu Suning Cloud Computing Co ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201911028892.5A priority Critical patent/CN110970016B/zh
Publication of CN110970016A publication Critical patent/CN110970016A/zh
Priority to CA3158930A priority patent/CA3158930A1/en
Priority to PCT/CN2020/105998 priority patent/WO2021082572A1/zh
Application granted granted Critical
Publication of CN110970016B publication Critical patent/CN110970016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种唤醒模型生成方法、智能终端唤醒方法及装置,属于语音唤醒技术领域,唤醒模型生成方法包括:对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,唤醒词音频的时间长度不固定;利用包含背景噪声的负样本音频对标注后的唤醒词音频进行加噪,得到正样本音频;从正样本音频和负样本音频中分别提取多个音频帧特征,并对正样本音频和负样本音频进行帧标签的标注,获得多个音频训练样本;使用多个音频训练样本对循环神经网络进行训练,生成唤醒模型。本发明实施例通过使用变长输入的循环神经网络进行模型训练,能够避免人工截取样本的操作,有利于提高智能终端的唤醒效果。

Description

一种唤醒模型生成方法、智能终端唤醒方法及装置
技术领域
本发明涉及数据安全技术领域,特别涉及一种唤醒模型生成方法、智能终端唤醒方法及装置。
背景技术
目前,语音唤醒的应用领域比较广泛,例如机器人、手机、可穿戴设备、智能家居、车载等。不同的智能终端会有不同的唤醒词,当用户说出特定的唤醒词,能够使智能终端从待机状态切换到工作状态,只有快速、精准地完成状态的切换,用户才能近乎无感知地直接使用智能终端的其他功能,因此,提高唤醒效果至关重要。
现有技术中,对智能终端进行唤醒主要采用基于神经网络的唤醒技术。在数据准备阶段,需要人工将正样本数据统一截取到固定时间长度t,且录制唤醒词的时长不能超过该时间长度t,这样会极大地增加人力成本,并且对语速较慢的唤醒语音无法识别;另外,由于唤醒词的时间可能较短,导致对神经网络的训练不足,最终对智能终端唤醒效果造成影响;此外,在终端唤醒阶段,由于神经网络每次都需要处理终端内存中的时间长度t的音频,这样相邻两个时间长度t之间就会有大量的重复数据需要处理,从而增加了终端的计算时间和功耗。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一,为此本发明提供一种唤醒模型生成方法、智能终端唤醒方法及装置。
本发明实施例提供的具体技术方案如下:
第一方面,提供了一种唤醒模型生成方法,所述方法包括:
对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,所述唤醒词音频的时间长度不固定;
利用包含背景噪声的负样本音频对标注后的所述唤醒词音频进行加噪,得到正样本音频;
从所述正样本音频和所述负样本音频中分别提取多个音频帧特征,并对所述正样本音频和所述负样本音频进行帧标签的标注,获得多个音频训练样本;
使用所述多个音频训练样本对循环神经网络进行训练,生成唤醒模型。
进一步地,所述对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,包括:
识别所述唤醒词音频中的仅包含所述唤醒词的至少一个关键音频段;
根据各个所述关键音频段各自的起止时间,分别标注每个所述唤醒词的起止时间,得到所述标注后的所述唤醒词音频。
进一步地,所述利用包含背景噪声的负样本音频对标注后的所述唤醒词音频进行加噪,得到正样本音频,包括:
从所述负样本音频中截取与标注后的所述唤醒词音频的时长相同的负样本音频段;
对所述负样本音频段的振幅均值进行调整,利用调整后的所述负样本音频段对所述标注后的所述唤醒词音频进行混合加噪,得到所述正样本音频。
进一步地,所述帧标签包括正标签、负标签和中间标签,所述对所述正样本音频和所述负样本音频进行帧标签的标注,获得多个音频训练样本,包括:
针对所述正样本音频的每个音频帧,判断所述音频帧的部分或全部是否落入任一唤醒词的起止时间段内,若判断为是,则将所述音频帧标记为中间标签;
若判断为否,则判断所述音频帧的前一个音频帧是否落入任一所述唤醒词的起止时间段内,且所述音频帧首次不包含唤醒词的结束时间,若是,则将所述音频帧标记为正标签,否则,则将所述音频帧标记为负标签;
针对所述负样本音频的每个音频帧,将所述音频帧标记为负标签。
第二方面,提供了一种智能终端唤醒方法,所述方法包括:
智能终端获取当前时刻的实时音频;
从所述实时音频中提取多个音频帧特征;
将提取到的多个音频帧特征依次输入到预先部署的唤醒模型中,并结合所述唤醒模型前一个时刻保存的状态进行计算,以获得所述实时音频中是否包含唤醒词的唤醒结果;
其中,所述唤醒模型为利用第一方面所述的唤醒模型生成方法生成的。
第三方面,提供了一种唤醒模型生成装置,所述装置包括:
第一标注模块,用于对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,所述唤醒词音频的时间长度不固定;
加噪处理模块,用于利用包含背景噪声的负样本音频对标注后的所述唤醒词音频进行加噪,得到正样本音频;
特征提取模块,用于从所述正样本音频和所述负样本音频中分别提取多个音频帧特征;
第二标注模块,用于对所述正样本音频和所述负样本音频进行帧标签的标注,获得多个音频训练样本;
模型生成模块,用于使用所述多个音频训练样本对循环神经网络进行训练,生成唤醒模型。
进一步地,所述第一标注模块具体用于:
识别所述唤醒词音频中的仅包含所述唤醒词的至少一个关键音频段;
根据各个所述关键音频段各自的起止时间,分别标注每个所述唤醒词的起止时间,得到所述标注后的所述唤醒词音频。
进一步地,所述加噪处理模块具体用于:
从所述负样本音频中截取与标注后的所述唤醒词音频的时长相同的负样本音频段;
对所述负样本音频段的振幅均值进行调整,利用调整后的所述负样本音频段对所述标注后的所述唤醒词音频进行混合加噪,得到所述正样本音频。
进一步地,所述帧标签包括正标签、负标签和中间标签,所述第二标注模块具体用于:
针对所述正样本音频的每个音频帧,判断所述音频帧的部分或全部是否落入任一唤醒词的起止时间段内,若判断为是,则将所述音频帧标记为中间标签;
若判断为否,则判断所述音频帧的前一个音频帧是否落入任一所述唤醒词的起止时间段内,且所述音频帧首次不包含唤醒词的结束时间,若是,则将所述音频帧标记为正标签,否则,则将所述音频帧标记为负标签;
针对所述负样本音频的每个音频帧,将所述音频帧标记为负标签。
第四方面,提供了一种智能终端唤醒装置,所述装置包括:
音频获取模块,用于智能终端获取当前时刻的实时音频;
特征提取模块,用于从所述实时音频中提取多个音频帧特征;
模型识别模块,用于将提取到的多个音频帧特征依次输入到预先部署的唤醒模型中,并结合所述唤醒模型前一个时刻保存的状态进行计算,以获得所述实时音频中是否包含唤醒词的唤醒结果;
其中,所述唤醒模型为利用第一方面所述的唤醒模型生成方法生成的。
本发明实施例提供的技术方案带来的有益效果是:
1、由于唤醒词音频的时间长度不固定,利用唤醒词音频作为变长输入数据进行循环神经网络RNN的训练,从而避免了手工截取数据,减少人工处理数据流程,节约了人力成本,且对语速较慢的唤醒语音也能够识别;
2、由于样本音频集合中可以包含长音频,能够实现不间断地训练RNN,从而提高唤醒词的识别精度,有利于提高智能终端的唤醒效果;
3、在终端唤醒过程中,对于新加入终端内存的每一帧音频,无需重复计算旧数据,减小了终端的计算时间和功耗。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的一种唤醒模型生成方法的流程示意图;
图2示出了本发明实施例提供的唤醒词的起止时间标注示意图;
图3示出了本发明实施例提供的MFCC特征向量获取示意图;
图4示出了本发明实施例提供的帧标签的标注示意图;
图5示出了本发明实施例提供的一种智能终端唤醒方法的流程示意图;
图6a示出了本发明实施例提供的t=1时终端内存中的唤醒过程示意图;
图6b示出了本发明实施例提供的t=M时终端内存中的唤醒过程示意图;
图7示出了本发明实施例提供的一种唤醒模型生成装置的结构示意图;
图8示出了本发明实施例提供的一种智能终端唤醒装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例一
本发明实施例提供了一种唤醒模型生成方法,该方法可以应用于服务器中,如图1所示,该方法可以包括步骤:
101,对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,唤醒词音频的时间长度不固定。
其中,样本音频集合中包含多个唤醒词音频,各个唤醒词音频均包含至少一个唤醒词。具体实现时,可以在安静的环境下,录制包含唤醒词的多个唤醒词音频,其中,在录制一个唤醒词音频时,相邻的唤醒词之间需保留一定的时间间隔,各个唤醒词的内容均相同,例如“小biu小biu”。在本实施例中,每个唤醒词音频的时间长度大致为几秒到几分钟,唤醒词的时间长度大致为1秒左右。
具体地,识别唤醒词音频中的仅包含唤醒词的至少一个关键音频段,根据各个关键音频段各自的起止时间,分别标注每个唤醒词的起止时间,得到标注后的所述唤醒词音频。在具体实施时,可以通过人工的方式在服务器上为唤醒词音频中的每个唤醒词进行标注起止时间,得到标注后的唤醒词音频。
其中,起止时间包括开始时间和结束时间,对唤醒词进行开始时间结束时刻的标注,例如,可以startN和endN分别作为第N个唤醒词的开始时间和结束时间如图2所示,图2示出了本发明实施例提供的唤醒词的起止时间标注示意图,其中,黑色部分表示为唤醒词。
102,利用包含背景噪声的负样本音频对标注后的唤醒词音频进行加噪,得到正样本音频。
其中,可以预先录制不同场景下的背景噪声,得到负样本音频,这里不同场景下可以是各种场景,例如,播放电视时的场景、做饭时的场景或其他场景等。
具体地,从负样本音频中截取与标注后的唤醒词音频的时长相同的负样本音频段,对负样本音频段的振幅均值进行调整,利用调整后的负样本音频段对标注后的所述唤醒词音频进行混合加噪,得到正样本音频。
在具体实施时,可以先将负样本音频段的振幅均值调整为等于标注后的所述唤醒词音频的振幅均值,然后再将负样本音频段的振幅均值降低到该振幅均值的预设百分比,其中,该预设百分比可以介于5%至10%之间。
本实施例中,为扩增正样本音频数据集,可以使用N个负样本音频对M个唤醒词音频中的每一个唤醒词音频进行加噪,得到N*M个正样本音频。
103,从正样本音频和负样本音频中分别提取多个音频帧特征,并对正样本音频和负样本音频进行帧标签的标注,获得多个音频训练样本。
具体地,从正样本音频和负样本音频中分别提取多个音频帧特征,该过程可以包括:
从正样本音频的每个音频帧中以及负样本音频的每个音频帧中分别提取多个音频帧特征,生成正样本音频的特征频谱图和负样本音频的特征频谱图,其中,音频帧特征具体可以为梅尔频率倒谱系数特征,特征频谱图为梅尔倒频谱图,也即梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的谱图,梅尔倒频谱中的每个特征向量表示每个音频帧的MFCC特征向量。
图3示出了本发明实施例提供的MFCC特征向量获取示意图。如图3所示,针对每一个正样本音频以及每一个负样本音频,可以分别以预设的窗口宽度W、移动步长S以及梅尔频率倒谱系数CMel,计算梅尔频率倒谱系数特征,生成梅尔倒频谱图。
具体地,对正样本音频和负样本音频进行帧标签的标注,其中,帧标签包括正标签、负标签和中间标签,该过程可以包括:
针对正样本音频的每个音频帧,判断音频帧的部分或全部是否落入任一唤醒词的起止时间段内,若判断为是,则将音频帧标记为中间标签;若判断为否,则判断音频帧的前一个音频帧是否落入任一唤醒词的起止时间段内,且音频帧首次不包含唤醒词的结束时间,若是,则将音频帧标记为正标签,否则,则将音频帧标记为负标签;针对负样本音频的每个音频帧,将音频帧标记为负标签。
本实施例中,正标签、负标签和中间标签可以分别表示为“Positive”、“Negative”、“Middle”或者“1”、“-1”、“0”。
图4示出了本发明实施例提供的帧标签的标注示意图。如图4所示,假设窗口的开始时间记为t,窗口宽度为w,对于正样本音频的每个音频帧,若该音频帧落入任一唤醒词的起止时间段外,则将该音频帧标记为“Negative”,即:(endN-1<t)&&(t+w<startN);若该音频帧的部分或全部落入任一唤醒词的起止时间段内,则将该音频帧标记为“Middle”,即:(startN<t+w)&&(t<endN);若该音频帧的前一个音频帧落入任一唤醒词的起止时间段内,且该音频帧首次不包含唤醒词的结束时间,即:(endN≤t)&&(t-1<endN),则将该音频帧标记为“Positive”。
可以理解的是,将负样本音频的每个音频帧均标记为“Negative”。
104,使用多个音频训练样本对循环神经网络进行训练,生成唤醒模型。
具体地,针对每一个音频训练样本的第N个音频帧,将该音频帧的帧特征作为循环神经网络的输入层t时刻的输入数据,将该音频帧的帧标签作为循环神经网络的输出层t时刻的输出结果,并结合循环神经网络的隐层t时刻的上一时刻的状态值St-1,计算循环神经网络的隐层t时刻的状态值St,依次计算得到循环神经网络的隐层的各个时刻的状态值,生成唤醒模型。
需要说明的是,本发明实施例在生成唤醒模型后,可以将该唤醒模型部署到智能终端上,以便利用该唤醒模型对智能终端进行唤醒处理。
本发明实施例提供了一种唤醒模块生成方法,由于唤醒词音频的时间长度不固定,利用唤醒词音频作为变长输入数据进行循环神经网络RNN的训练,从而避免了手工截取数据,节约了人力成本,且对语速较慢的数据也能够识别;同时,由于样本音频集合中可以包含长音频,能够实现不间断地训练RNN,从而提高唤醒词的识别精度,有利于提高智能终端的唤醒效果。
实施例二
本发明实施例提供了一种智能终端唤醒方法,该方法可以应用于智能终端中,该智能终端预先部署有基于上述实施例一中的唤醒模型生成方法所生成的唤醒模型,如图5所示,该方法可以包括步骤:
501,智能终端获取当前时刻的实时音频。
具体地,智能终端可以利用麦克风采集场景中当前时刻的实时音频。其中,智能终端包括但不限于机器人、智能手机、可穿戴设备、智能家居、车载终端等。
502,从实时音频中提取多个音频帧特征。
具体地,以预设的窗口宽度W、移动步长S以及梅尔频率倒谱系数CMel,从实时音频的每一个音频帧中分别提取梅尔频率倒谱系数特征,得到多个音频帧特征。
进一步地,为提高唤醒词的识别精度,提高唤醒效果,在执行步骤202之前,本发明实施例提供的方法还可以包括:
对当前时刻的实时音频进行预处理,其中,预处理包括但不限于回声消除和降噪处理。
503,将提取到的多个音频帧特征依次输入到预先部署的唤醒模型中,并结合唤醒模型前一个时刻保存的状态进行计算,以获得实时音频中是否包含唤醒词的唤醒结果。
具体地,按照提取到的多个音频帧特征对应在实时音频中的时序,将各个音频帧特征依次输入唤醒模型中,结合唤醒模型前一个时刻保存的状态进行计算,根据唤醒模型的输出结果,获得当前时刻的实时音频的多个音频帧分别对应的帧标签以及唤醒模型当前时刻的状态,保存唤醒模型当前时刻的状态,并根据多个音频帧分别对应的帧标签,获取实时音频中是否包含唤醒词的唤醒结果,其中,当多个音频帧分别对应的帧标签中包含正标签时,则确定实时音频中包含唤醒词。
下面结合图6a至图6b对本发明实施例的智能终端唤醒方法作进一步说明。
假设智能终端的内存每次只能存储N帧数据,如图6a所示,在智能终端首次上电时,将t=1时刻的实时音频加载到内存,唤醒模型中的RNN网络前一个时刻的状态S0为0,需要将t=1时刻的实时音频特征输入唤醒模型的RNN网络中,得到t=1时RNN网络中的状态S1,并输出识别结果。如图6b所示,在智能终端上电后的任意时刻,假设t=M,其中M大于1,只需要将t=M时新加入内存的实时音频帧特征输入到唤醒模型的RNN网络中,结合RNN网络上一时刻保存的状态SM-1进行计算,而不需要重复计算内存中所有的数据。
本实施例中,由于目前智能终端大多采用低端芯片,终端内存的容量有限,而现有技术中,在终端唤醒阶段,由于神经网络每次都需要处理终端内存中的时间长度t的音频,这样相邻两个时间长度t之间就会有大量的重复数据需要处理,导致增加了终端的计算时间和功耗。本发明利用变长输入的RNN唤醒模型进行判断实时音频中是否包含唤醒词,无需重复计算旧数据,由此减小了计算量,加快了处理速度,降低功耗。
实施例三
作为对上述实施例一提供的唤醒模型生成方法的实现,本发明实施例提供了一种唤醒模型生成装置,如图7所示,该装置包括:
第一标注模块71,用于对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,唤醒词音频的时间长度不固定;
加噪处理模块72,用于利用包含背景噪声的负样本音频对标注后的唤醒词音频进行加噪,得到正样本音频;
特征提取模块73,用于从正样本音频和负样本音频中分别提取多个音频帧特征;
第二标注模块74,用于对正样本音频和负样本音频进行帧标签的标注,获得多个音频训练样本;
模型生成模块75,用于使用多个音频训练样本对循环神经网络进行训练,生成唤醒模型。
进一步地,第一标注模块71具体用于:
识别唤醒词音频中的仅包含唤醒词的至少一个关键音频段;
根据各个关键音频段各自的起止时间,分别标注每个唤醒词的起止时间,得到标注后的所述唤醒词音频。
进一步地,加噪处理模块72具体用于:
从负样本音频中截取与标注后的唤醒词音频的时长相同的负样本音频段;
对负样本音频段的振幅均值进行调整,利用调整后的负样本音频段对标注后的所述唤醒词音频进行混合加噪,得到正样本音频。
进一步地,帧标签包括正标签、负标签和中间标签,第二标注模块74具体用于:
针对正样本音频的每个音频帧,判断音频帧的部分或全部是否落入任一唤醒词的起止时间段内,若判断为是,则将音频帧标记为中间标签;
若判断为否,则判断音频帧的前一个音频帧是否落入任一唤醒词的起止时间段内,且音频帧首次不包含唤醒词的结束时间,若是,则将音频帧标记为正标签,否则,则将音频帧标记为负标签;
针对负样本音频的每个音频帧,将音频帧标记为负标签。
本发明实施例提供的唤醒模型生成装置,与本发明实施例一所提供的唤醒模型生成方法属于同一发明构思,可执行本发明任意实施例所提供的唤醒模型生成方法,具备执行唤醒模型生成方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节,可参见本发明实施例提供的唤醒模型生成方法,此处不再加以赘述。
实施例四
作为对上述实施例二提供的智能终端唤醒方法的实现,本发明实施例提供了一种智能终端唤醒装置,如图8所示,该装置包括:
音频获取模块81,用于智能终端获取当前时刻的实时音频;
特征提取模块82,用于从实时音频中提取多个音频帧特征;
模型识别模块83,用于将提取到的多个音频帧特征依次输入到预先部署的唤醒模型中,并结合唤醒模型前一个时刻保存的状态进行计算,以获得实时音频中是否包含唤醒词的唤醒结果;
其中,唤醒模型为利用实施例一中的唤醒模型生成方法生成的。
进一步地,为提高唤醒词的识别精度,提高唤醒效果,该装置还可以包括:
预处理模块,用于对当前时刻的实时音频进行预处理,其中,预处理包括但不限于回声消除和降噪处理。
特征提取模块82,还用于从预处理后的实时音频中提取多个音频帧特征。
本发明实施例提供的智能终端唤醒装置,与本发明实施例二所提供的智能终端唤醒方法属于同一发明构思,可执行本发明任意实施例所提供的智能终端唤醒方法,具备执行业务请求处理方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节,可参见本发明实施例提供的智能终端唤醒方法,此处不再加以赘述。
此外,本发明另一实施例还提供了一种计算机设备,包括:
一个或者多个处理器;
存储器;
存储在存储器中的程序,当被一个或者多个处理器执行时,程序使处理器执行如上述实施例所述的唤醒模型生成方法的步骤。
此外,本发明另一实施例还提供了一种计算机设备,包括:
一个或者多个处理器;
存储器;
存储在存储器中的程序,当被一个或者多个处理器执行时,程序使处理器执行如上述实施例所述的智能终端唤醒方法的步骤。
此外,本发明另一实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器执行如上述实施例所述的唤醒模型生成方法的步骤。
此外,本发明另一实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器执行如上述实施例所述的智能终端唤醒方法的步骤。
本领域内的技术人员应明白,本发明实施例中的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例中是参照根据本发明实施例中实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个liuc流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种唤醒模型生成方法,其特征在于,所述方法包括:
对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,所述唤醒词音频的时间长度不固定;
利用包含背景噪声的负样本音频对标注后的所述唤醒词音频进行加噪,得到正样本音频;
从所述正样本音频和所述负样本音频中分别提取多个音频帧特征,并对所述正样本音频和所述负样本音频进行帧标签的标注,获得多个音频训练样本,所述帧标签包括正标签、负标签和中间标签,所述对所述正样本音频和所述负样本音频进行帧标签的标注,获得多个音频训练样本,包括:
针对所述正样本音频的每个音频帧,判断所述音频帧的部分或全部是否落入任一唤醒词的起止时间段内,若判断为是,则将所述音频帧标记为中间标签;
若判断为否,则判断所述音频帧的前一个音频帧是否落入任一所述唤醒词的起止时间段内,且所述音频帧首次不包含唤醒词的结束时间,若是,则将所述音频帧标记为正标签,否则,则将所述音频帧标记为负标签;
针对所述负样本音频的每个音频帧,将所述音频帧标记为负标签;使用所述多个音频训练样本对循环神经网络进行训练,生成唤醒模型。
2.根据权利要求1所述的方法,其特征在于,所述对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,包括:
识别所述唤醒词音频中的仅包含所述唤醒词的至少一个关键音频段;
根据各个所述关键音频段各自的起止时间,分别标注每个所述唤醒词的起止时间,得到所述标注后的所述唤醒词音频。
3.根据权利要求1所述的方法,其特征在于,所述利用包含背景噪声的负样本音频对标注后的所述唤醒词音频进行加噪,得到正样本音频,包括:
从所述负样本音频中截取与标注后的所述唤醒词音频的时长相同的负样本音频段;
对所述负样本音频段的振幅均值进行调整,利用调整后的所述负样本音频段对所述标注后的所述唤醒词音频进行混合加噪,得到所述正样本音频。
4.一种智能终端唤醒方法,其特征在于,所述方法包括:
智能终端获取当前时刻的实时音频;
从所述实时音频中提取多个音频帧特征;
将提取到的多个音频帧特征依次输入到预先部署的唤醒模型中,并结合所述唤醒模型前一个时刻保存的状态进行计算,以获得所述实时音频中是否包含唤醒词的唤醒结果;
其中,所述唤醒模型为利用权利要求1至3中任一项所述的唤醒模型生成方法生成的。
5.一种唤醒模型生成装置,其特征在于,所述装置包括:
第一标注模块,用于对样本音频集合中的唤醒词音频所包含的每个唤醒词的起止时间进行标注,得到标注后的唤醒词音频,其中,所述唤醒词音频的时间长度不固定;
加噪处理模块,用于利用包含背景噪声的负样本音频对标注后的所述唤醒词音频进行加噪,得到正样本音频;
特征提取模块,用于从所述正样本音频和所述负样本音频中分别提取多个音频帧特征;
第二标注模块,用于对所述正样本音频和所述负样本音频进行帧标签的标注,获得多个音频训练样本,所述帧标签包括正标签、负标签和中间标签,所述第二标注模块具体用于:
针对所述正样本音频的每个音频帧,判断所述音频帧的部分或全部是否落入任一唤醒词的起止时间段内,若判断为是,则将所述音频帧标记为中间标签;
若判断为否,则判断所述音频帧的前一个音频帧是否落入任一所述唤醒词的起止时间段内,且所述音频帧首次不包含唤醒词的结束时间,若是,则将所述音频帧标记为正标签,否则,则将所述音频帧标记为负标签;
针对所述负样本音频的每个音频帧,将所述音频帧标记为负标签;
模型生成模块,用于使用所述多个音频训练样本对循环神经网络进行训练,生成唤醒模型。
6.根据权利要求5所述的装置,其特征在于,所述第一标注模块具体用于:
识别所述唤醒词音频中的仅包含所述唤醒词的至少一个关键音频段;
根据各个所述关键音频段各自的起止时间,分别标注每个所述唤醒词的起止时间,得到所述标注后的所述唤醒词音频。
7.根据权利要求5所述的装置,其特征在于,所述加噪处理模块具体用于:
从所述负样本音频中截取与标注后的所述唤醒词音频的时长相同的负样本音频段;
对所述负样本音频段的振幅均值进行调整,利用调整后的所述负样本音频段对所述标注后的所述唤醒词音频进行混合加噪,得到所述正样本音频。
8.一种智能终端唤醒装置,其特征在于,所述装置包括:
音频获取模块,用于智能终端获取当前时刻的实时音频;
特征提取模块,用于从所述实时音频中提取多个音频帧特征;
模型识别模块,用于将提取到的多个音频帧特征依次输入到预先部署的唤醒模型中,并结合所述唤醒模型前一个时刻保存的状态进行计算,以获得所述实时音频中是否包含唤醒词的唤醒结果;
其中,所述唤醒模型为利用权利要求1至3中任一项所述的唤醒模型生成方法生成的。
CN201911028892.5A 2019-10-28 2019-10-28 一种唤醒模型生成方法、智能终端唤醒方法及装置 Active CN110970016B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911028892.5A CN110970016B (zh) 2019-10-28 2019-10-28 一种唤醒模型生成方法、智能终端唤醒方法及装置
CA3158930A CA3158930A1 (en) 2019-10-28 2020-07-30 Arousal model generating method, intelligent terminal arousing method, and corresponding devices
PCT/CN2020/105998 WO2021082572A1 (zh) 2019-10-28 2020-07-30 一种唤醒模型生成方法、智能终端唤醒方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911028892.5A CN110970016B (zh) 2019-10-28 2019-10-28 一种唤醒模型生成方法、智能终端唤醒方法及装置

Publications (2)

Publication Number Publication Date
CN110970016A CN110970016A (zh) 2020-04-07
CN110970016B true CN110970016B (zh) 2022-08-19

Family

ID=70029890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911028892.5A Active CN110970016B (zh) 2019-10-28 2019-10-28 一种唤醒模型生成方法、智能终端唤醒方法及装置

Country Status (3)

Country Link
CN (1) CN110970016B (zh)
CA (1) CA3158930A1 (zh)
WO (1) WO2021082572A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970016B (zh) * 2019-10-28 2022-08-19 苏宁云计算有限公司 一种唤醒模型生成方法、智能终端唤醒方法及装置
CN111653274B (zh) * 2020-04-17 2023-08-04 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111833902B (zh) * 2020-07-07 2024-07-19 Oppo广东移动通信有限公司 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN112201239B (zh) * 2020-09-25 2024-05-24 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
CN112259085A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种基于模型融合框架的两阶段语音唤醒算法
CN113223499B (zh) * 2021-04-12 2022-11-04 青岛信芯微电子科技股份有限公司 一种音频负样本的生成方法及装置
CN113903334B (zh) * 2021-09-13 2022-09-23 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置
CN116110112B (zh) * 2023-04-12 2023-06-16 广东浩博特科技股份有限公司 基于人脸识别的智能开关的自适应调节方法以及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
EP3472831B8 (en) * 2016-06-15 2020-07-01 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
CN108281137A (zh) * 2017-01-03 2018-07-13 中国科学院声学研究所 一种全音素框架下的通用语音唤醒识别方法及系统
CN108694940B (zh) * 2017-04-10 2020-07-03 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
CN110176226B (zh) * 2018-10-25 2024-02-02 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质
CN109785850A (zh) * 2019-01-18 2019-05-21 腾讯音乐娱乐科技(深圳)有限公司 一种噪声检测方法、装置和存储介质
CN110364147B (zh) * 2019-08-29 2021-08-20 厦门市思芯微科技有限公司 一种唤醒训练词采集系统及方法
CN110970016B (zh) * 2019-10-28 2022-08-19 苏宁云计算有限公司 一种唤醒模型生成方法、智能终端唤醒方法及装置

Also Published As

Publication number Publication date
CA3158930A1 (en) 2021-05-06
WO2021082572A1 (zh) 2021-05-06
CN110970016A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110970016B (zh) 一种唤醒模型生成方法、智能终端唤醒方法及装置
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN108630193B (zh) 语音识别方法及装置
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN111161714B (zh) 一种语音信息处理方法、电子设备及存储介质
CN109872713A (zh) 一种语音唤醒方法及装置
CN109741753A (zh) 一种语音交互方法、装置、终端及服务器
EP4425482A2 (en) Model training and tone conversion method and apparatus, device, and medium
CN109065046A (zh) 语音唤醒的方法、装置、电子设备及计算机可读存储介质
CN112562742B (zh) 语音处理方法和装置
CN110290280B (zh) 一种终端状态的识别方法、装置及存储介质
CN109697978B (zh) 用于生成模型的方法和装置
CN111722696B (zh) 用于低功耗设备的语音数据处理方法和装置
CN103514882A (zh) 一种语音识别方法及系统
CN109326285A (zh) 语音信息处理方法、装置及非暂态计算机可读存储介质
CN112148846A (zh) 结合rpa和ai的回复语音确定方法、装置、设备及存储介质
CN113096692A (zh) 语音检测方法及装置、设备、存储介质
CN113838462B (zh) 语音唤醒方法、装置、电子设备及计算机可读存储介质
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
CN111128150A (zh) 一种唤醒智能语音设备的方法及装置
CN111179913B (zh) 一种语音处理方法及装置
CN114236469A (zh) 一种机器人语音识别定位方法及系统
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN110610697B (zh) 一种语音识别方法及装置
CN116631380B (zh) 一种音视频多模态的关键词唤醒方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee after: Jiangsu Suning cloud computing Co.,Ltd.

Country or region after: China

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee before: Suning Cloud Computing Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240131

Address after: Room 3104, Building A5, No. 3 Gutan Avenue, Economic Development Zone, Gaochun District, Nanjing City, Jiangsu Province, 210000

Patentee after: Jiangsu Biying Technology Co.,Ltd.

Country or region after: China

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee before: Jiangsu Suning cloud computing Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right