CN109509470B

CN109509470B - 语音交互方法、装置、计算机可读存储介质及终端设备

Info

Publication number: CN109509470B
Application number: CN201811508635.7A
Authority: CN
Inventors: 岳鹏昱; 闫冬
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2024-05-07
Anticipated expiration: 2038-12-11
Also published as: CN109509470A

Abstract

本发明属于计算机技术领域，尤其涉及一种语音交互方法、装置、计算机可读存储介质及终端设备。所述方法对预设的麦克风采集的第一语音流进行唤醒词检测；若在所述第一语音流中检测到预设的唤醒词集合中的任意一个唤醒词，则对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息，所述第一语音流为在唤醒词检测成功之前采集的语音流，所述第二语音流为在唤醒词检测成功之后采集的语音流；在数据库中查询与所述文本信息对应的回复信息；对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。通过本发明，可以对用户所说的话自动进行回复，模拟出真实沟通场景的互动性，大大缓解了用户的孤独感。

Description

语音交互方法、装置、计算机可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种语音交互方法、装置、计算机可读存储介质及终端设备。

背景技术

随着生活节奏的不断加快，人们很难抽出大量的时间来陪伴家中的孩子、老人、病患等需照料的亲属，常常会使这些亲属长时间独自在家，产生极强的孤独感。一般在这种情况下，人们会为这些亲属准备电视机、收音机等设备，让这些亲属通过看电视、听广播等方式来排遣孤独，但是在这些方式下，用户只是被动的接收信息，缺乏有效的互动，跟真实场景下的沟通相差甚远，难以有效缓解用户的孤独感。

发明内容

有鉴于此，本发明实施例提供了一种语音交互方法、装置、计算机可读存储介质及终端设备，以解决在现有技术中，用户只是被动的接收信息，缺乏有效的互动的问题。

本发明实施例的第一方面提供了一种语音交互方法，可以包括：

对预设的麦克风采集的第一语音流进行唤醒词检测；

若在所述第一语音流中检测到预设的唤醒词集合中的任意一个唤醒词，则对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息，所述第一语音流为在唤醒词检测成功之前采集的语音流，所述第二语音流为在唤醒词检测成功之后采集的语音流；

在预设的数据库中查询与所述文本信息对应的回复信息；

对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。

本发明实施例的第二方面提供了一种语音交互装置，可以包括：

语音唤醒模块，用于对预设的麦克风采集的第一语音流进行唤醒词检测；

语音识别模块，用于若在所述第一语音流中检测到预设的唤醒词集合中的任意一个唤醒词，则对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息，所述第一语音流为在唤醒词检测成功之前采集的语音流，所述第二语音流为在唤醒词检测成功之后采集的语音流；

语义理解模块，用于在预设的数据库中查询与所述文本信息对应的回复信息；

语音合成模块，用于对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

对预设的麦克风采集的第一语音流进行唤醒词检测；

在预设的数据库中查询与所述文本信息对应的回复信息；

本发明实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

对预设的麦克风采集的第一语音流进行唤醒词检测；

在预设的数据库中查询与所述文本信息对应的回复信息；

本发明实施例与现有技术相比存在的有益效果是：本发明实施例首先通过麦克风采集周边的语音流，并对采集的语言流进行唤醒词检测，若在其中检测到预设的唤醒词集合中的任意一个唤醒词，则说明用户想要进行对话，此时继续采集后续的语音流(也即用户所说的话)，并对其进行语音识别，得到对应的文本信息，然后预设的数据库中查询与所述文本信息对应的回复信息，对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。通过本发明实施例，可以对用户所说的话自动进行回复，模拟出真实沟通场景的互动性，大大缓解了用户的孤独感。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种语音交互方法的一个实施例流程图；

图2为根据统计结果对唤醒词集合进行变更的示意流程图；

图3为对回复信息进行语音合成的示意流程图；

图4为本发明实施例中一种语音交互装置的一个实施例结构图；

图5为本发明实施例中一种终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种语音交互方法的一个实施例可以包括：

步骤S101、对预设的麦克风采集的第一语音流进行唤醒词检测。

为了便于对用户发出的语音进行采集，所述麦克风可以是用户随身携带的领夹式麦克风。所述第一语音流为在唤醒词检测成功之前采集的语音流。该步骤是要在连续不断的语音中将目标关键词(即唤醒词)检测出来，也即进行语音唤醒，语音唤醒和语音识别的区别在于语音识别只能处理一段一段的语音数据，也就是待识别的语音有明确的开始和结束，而语音唤醒是处理连续不断的语音流，比如在本实施例中可以24小时不间断的监听麦克风采集的语音流，并进行唤醒词检测。

本实施例可以是基于snowboy做出的唤醒服务，snowboy是一款高度可定制的唤醒词检测引擎，可以用于实时嵌入式系统，在离线或者在线的情况下均可始终保持监听。它可以运行在RaspberryPi、(Ubuntu)Linux和MacOSX等等系统上。

唤醒词可以根据实际情况进行设置，初始状态下，可以使用系统默认的唤醒词，例如，可以使用“helloworld”来作为系统默认的唤醒词。用户在使用的过程中，可以根据自己的使用习惯对唤醒词进行修改。

需要注意的是，唤醒词的选择应该为用户日常生活中不常使用的生僻词语，以免造成频繁的语音唤醒误操作。

进一步地，用户可以设置由多个唤醒词组成的唤醒词集合，若在所述第一语音流中检测到该唤醒词集合中的任意一个唤醒词，则可判定唤醒成功，执行步骤S102及其后续步骤。

进一步地，在本实施例中还可以通过如图2所示的过程自动统计用户设置的各个唤醒词的误唤醒率，并据此对所述唤醒词集合进行变更：

步骤S1011、获取在预设的统计时段内的语音唤醒记录。

所述统计时段可以根据实际情况进行设置，例如，可以将其设置为一周、两周、一个月、两个月或者其它取值。

步骤S1012、根据所述语音唤醒记录分别统计与所述唤醒词集合中各个唤醒词对应的唤醒事件的次数以及误唤醒事件的次数。

所述唤醒事件为唤醒词检测成功的事件，所述误唤醒事件为在唤醒词检测成功后预设的等待时长内接收到用户下发的终止唤醒指令的事件。所述等待时长可以根据实际情况进行设置，例如，可以将其设置为10秒、20秒、30秒、1分钟或者其它取值。若在语音唤醒之后很短的时间内即接收到用户下发的终止唤醒指令，则说明此次语音唤醒为误唤醒，用户可能是在不经意间说出了唤醒词，但其实并没有进行语音交互的需求。

步骤S1013、计算所述唤醒词集合的平均误唤醒率。

在本实施例中，可以根据下式计算所述唤醒词集合的平均误唤醒率：

其中，w为各个唤醒词的序号，1≤w≤WN，WN为所述唤醒词集合中的唤醒词总数，WakeNum_w为与所述唤醒词集合中第w个唤醒词对应的唤醒事件的次数，ErrNum_w为与所述唤醒词集合中第w个唤醒词对应的误唤醒事件的次数，AvrErrRate为所述唤醒词集合的平均误唤醒率。

步骤S1014、分别计算所述唤醒词集合中各个唤醒词的误唤醒率。

在本实施例中，可以根据下式分别计算所述唤醒词集合中各个唤醒词的误唤醒率：

其中，ErrRate_w为所述唤醒词集合中第w个唤醒词的误唤醒率。

步骤S1015、从所述唤醒词集合中删除满足预设条件的唤醒词。

所述预设条件可以是：

其中，ScaleCoef为预设的比例系数，且ScaleCoef>1，ThreshNum为预设的次数阈值，其具体取值可以根据实际情况进行设置，例如，可以将其设置为10、20、50、100或者其它取值。

满足该预设条件的唤醒词即为容易导致误唤醒的唤醒词，因此为了减小误唤醒率，可以将这些容易导致误唤醒的唤醒词从所述唤醒词集合中删除。在本实施例的另一种具体实现中，在进行删除之前，还可以向用户的终端设备发送请求信息，在该请求信息中向用户展示需要删除的唤醒词，若接收到用户的终端设备反馈的确认信息，则将这些唤醒词从所述唤醒词集合中删除，若接收到用户的终端设备反馈的拒绝信息，则仍然保留这些唤醒词。

步骤S102、对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息。

所述第二语音流为在唤醒词检测成功之后采集的语音流，也即用户在语音唤醒后说出的话。

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，主要包含特征提取、声学模型，语言模型以及字典与解码等过程，此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作，将需要分析的音频信号从原始信号中合适地提取出来。

特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量。

声学模型中根据声学特性计算每一个特征向量在声学特征上的得分。本实施例中优选采用隐马尔可夫(HiddenMarkovModel，HMM)声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。

语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率。本实施例中优选采用N-Gram语言模型，该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到，常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度来衡量。交叉熵的意义是用该模型对识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。最后根据已有的字典，对词组序列进行解码，得到最后识别出的文本。

在本实施例中，可以基于kaldi(开源的语音识别工具库进行二次开发，预先收集了一批偏生活的文本语料和语音，用来训练语言和声学模型，最后生成HCLG(由语言模型(G)，词汇表(L)，上下文相关信息(C)，隐马尔可夫模型(H)四个部分构成)模型用于解码，最后服务是以http协议发送给处理器。

步骤S103、在预设的数据库中查询与所述文本信息对应的回复信息。

该部分可具体分为分词和数据库搭建两部分内容。

分词处理是指将一个句子切分成一个一个单独的词语，在本实施例中，可以基于ANSJ(开源中文分词工具)对句子进行切分，为了保证其对生活场景的句子的适用性，可以预先自定义与该生活场景对应的用户词典，用来确定句子中的关键字。

数据库是在网上爬取了一些生活问答的场景，对每个场景贴了一个标签，对应上述关键字，当检测到关键字时能快速查询出所需回复信息。

进一步地，为了提高对问题的覆盖率，增大答案的精准程度，在本实施例中可以采用多个数据库进行查询，这些数据库包括但不限于语义关系挖掘系统、正文库检索系统、知识库检索系统以及问答库检索系统。

语义关系挖掘系统的资源库包括两部分：一部分为倒排索引库，另一部分为键值资源库(KeyValue，Kv)，该倒排索引库和Kv资源库可以通过离线文档处理程序进行构建。其中，一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号，单词在这个文档中出现的次数及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引，利用倒排索引，可以提高检索效率。

正文库检索系统的资源库包括：正文库和Kv资源库。其中，正文库基于搜索引擎对海量非结构化的网页的索引、分析和排序技术，根据海量非结构化网页数据建立。Kv资源库根据百度百科以及维基(wiki)百科等文库建立。由于海量非结构化的网页数据和百度百科及维基百科等文库包含了丰富的知识，因此正文库检索系统是整个系统的核心，也即是实现智能问答的核心处理系统，可以实现对用户输入的待查询的问题的答案检索。

知识库检索系统的资源库为线下挖掘的结构化的知识库，以<实体，属性，值>三元组形式存储，例如：<张三，老婆，美眉>、<美眉、星座、白羊座>、<阿凡达，作者，詹姆斯·卡梅隆>等，并负责以知识库信息为基础进行推理。如问题“张三的老婆是什么星座？”，通过张三的老婆是美眉及美眉的星座是白羊座，推理得到该问题的答案是“白羊座”。

问答库检索系统的资源库为基于线下挖掘的高质量问答数据，比如百度知道中历史用户的提问和回答，而形成的问答社区资源库。

需要注意的是，上述各个数据库，可以单独执行，也可以组合采用。通过这样的方式，增加了问题的答案搜索范围，一方面，使得对问题的回答更加精确，另一方面，增加了问题的覆盖面，尤其是对于中低频和冷门问题也可以检索得到比较精确的答案，有效地提高了回答问题的准确度。

步骤S104、对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。

进一步地，为了增加语音交互过程中的趣味性，使得用户获得更好的体验，可以根据用户的特征为之选择最合适的语音合成模型来生成所述回复语音，具体的过程如图3所示：

步骤S1041、提取所述第二语音流中的语音特征向量。

在本实施例中，可以将所述第二语音流中的梅尔频谱倒频系数(Mel-FrequencyCepstral Coefficients，MFCCs)构造成所述语音特征向量。

此处将所述语音特征向量记为：

VcVec＝(VcElm₁,VcElm₂,...,VcElm_gn,...,VcElm_GN)

其中，gn为语音特征向量的维度序号，1≤gn≤GN，GN为语音特征向量的维度总数，FaceElm_gn为所述第二语音流中的语音特征向量在第gn个维度上的取值，VcVec为所述第二语音流中的语音特征向量。

步骤S1042、根据所述语音特征向量确定用户的性别及年龄。

其中，性别确定的过程可以包括：

首先，从预设的历史样本库中分别选取男性样本集以及女性样本集，其中，两个样本集中所包含的样本数量应当大致相等，以保持最终结果的均衡性。

所述男性样本集中的各个男性样本的语音特征向量记为：

MaleVec_m＝(MaleElm_m,1,MaleElm_m,2,...,MaleElm_m,gn,...,MaleElm_m,GN)

m为男性样本的序号，1≤m≤MaleNum，MaleNum为男性样本的总数，MaleElm_m,gn为第m个男性样本的语音特征向量在第gn个维度上的取值，MaleVec_m为第m个男性样本的语音特征向量。

所述女性样本集中的各个女性样本的语音特征向量记为：

FemVec_f＝(FemElm_f,1,FemElm_f,2,...,FemElm_f,gn,...,FemElm_f,GN)

f为女性样本的序号，1≤f≤FemNum，FemNum为女性样本的总数，FemElm_f,gn为第f个女性样本的语音特征向量在第gn个维度上的取值，FemVec_f为第f个女性样本的语音特征向量。

然后，根据下式分别计算所述第二语音流中的语音特征向量与所述男性样本集以及所述女性样本集之间的平均距离：

其中，VcElm_gn为所述第二语音流中的语音特征向量在第gn个维度上的取值，MaleDis为所述第二语音流中的语音特征向量与所述男性样本集之间的平均距离，FemDis为所述第二语音流中的语音特征向量与所述女性样本集之间的平均距离。

最后，根据所述第二语音流中的语音特征向量与所述男性样本集以及所述女性样本集之间的平均距离确定所述用户的性别。

若MaleDis大于FemDis，则判定所述用户的性别为男性，若MaleDis小于FemDis，则判定所述用户的性别为女性。

进一步地，年龄确定的过程可以包括：

首先，从历史样本库中分别选取各个年龄段的样本集，其中，各个样本集中所包含的样本数量应当大致相等，以保持最终结果的均衡性。

特别需要注意的是，由于已经完成了性别的判断，在选取各个年龄段的样本时，只选择相同性别的样本，这样可以进一步提高判定结果的准确率。

各个样本的语音特征向量记为：

AgeVec_s,c＝(AgeElm_s,c,1,AgeElm_s,c,2,...,AgeElm_s,c,gn,...,AgeElm_s,c,GN)

s为各个年龄段的序号，1≤s≤SN，SN为年龄段的总数，c为样本的序号，1≤c≤CN_s，CN_s为第s个年龄段的样本集中的样本总数，AgeElm_s,c,gn为第s个年龄段的样本集中的第c个样本的语音特征向量在第gn个维度上的取值，AgeVec_s,c为第s个年龄段的样本集中的第c个样本的语音特征向量。

然后，根据下式分别计算所述第二语音流中的语音特征向量与各个年龄段的样本集之间的平均距离：

其中，AgeDis_s为所述第二语音流中的语音特征向量与第s个年龄段的样本集之间的平均距离。

最后，根据下式确定所述用户的年龄：

AgeType＝argmin(AgeDis₁,AgeDis₂,...,AgeDis_s,...,AgeDis_SN)

其中，argmin为最小自变量函数，AgeType为所述用户所处的年龄段的序号。

步骤S1043、在预设的语音合成模型库中查询与所述用户的性别及年龄对应的优选语音合成模型。

在所述语音合成模型库中包括分别与各个性别、各个年龄段对应的语音合成模型，如下表所示：

其中，针对任意一个性别、年龄段的语音合成模型均为对大量的该性别及年龄段的用户的调查统计确定的，例如，对于10岁以下的男性用户而言，比较偏好与能较好体现母爱的中年女性进行语音交互，因此，与其对应的语音合成模型为经过大量中年女性的说话模式训练得到的模型。

在经过步骤S1042的过程，确定出所述用户的性别及年龄之后，即可在所述语音合成模型库中查询与所述用户的性别及年龄对应的语音合成模型，也即所述优选语音合成模型。

步骤S1044、使用所述优选语音合成模型对所述回复信息进行语音合成，生成所述回复语音。

本实施例中可以基于Tacotron(开源的语音合成工具)中汉语语音合成的服务，通过预先收集到的语音训练出语音合成模型，上述的文字通过python-pinyin转化为拼音，进入到语音合成模型中，最后生成wav音频文件，通过音箱播报出来。

综上所述，本发明实施例与现有技术相比存在的有益效果是：本发明实施例首先通过麦克风采集周边的语音流，并对采集的语言流进行唤醒词检测，若在其中检测到预设的唤醒词集合中的任意一个唤醒词，则说明用户想要进行对话，此时继续采集后续的语音流(也即用户所说的话)，并对其进行语音识别，得到对应的文本信息，然后预设的数据库中查询与所述文本信息对应的回复信息，对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。通过本发明实施例，可以对用户所说的话自动进行回复，模拟出真实沟通场景的互动性，大大缓解了用户的孤独感。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种语音交互方法，图4示出了本发明实施例提供的一种语音交互装置的一个实施例结构图。

本实施例中，一种语音交互装置可以包括：

语音唤醒模块401，用于对预设的麦克风采集的第一语音流进行唤醒词检测；

语音识别模块402，用于若在所述第一语音流中检测到预设的唤醒词集合中的任意一个唤醒词，则对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息，所述第一语音流为在唤醒词检测成功之前采集的语音流，所述第二语音流为在唤醒词检测成功之后采集的语音流；

语义理解模块403，用于在预设的数据库中查询与所述文本信息对应的回复信息；

语音合成模块404，用于对所述回复信息进行语音合成，生成回复语音，并通过预设的音箱播报所述回复语音。

进一步地，所述语音交互装置还可以包括：

唤醒记录获取模块，用于获取在预设的统计时段内的语音唤醒记录；

唤醒记录统计模块，用于根据所述语音唤醒记录分别统计与所述唤醒词集合中各个唤醒词对应的唤醒事件的次数以及误唤醒事件的次数，所述唤醒事件为唤醒词检测成功的事件，所述误唤醒事件为在唤醒词检测成功后预设的等待时长内接收到用户下发的终止唤醒指令的事件；

第一误唤醒率计算模块，用于根据下式计算所述唤醒词集合的平均误唤醒率：

其中，w为各个唤醒词的序号，1≤w≤WN，WN为所述唤醒词集合中的唤醒词总数，WakeNum_w为与所述唤醒词集合中第w个唤醒词对应的唤醒事件的次数，ErrNum_w为与所述唤醒词集合中第w个唤醒词对应的误唤醒事件的次数，AvrErrRate为所述唤醒词集合的平均误唤醒率；

第二误唤醒率计算模块，用于根据下式分别计算所述唤醒词集合中各个唤醒词的误唤醒率：

其中，ErrRate_w为所述唤醒词集合中第w个唤醒词的误唤醒率；

唤醒词删除模块，用于从所述唤醒词集合中删除满足如下条件的唤醒词：

其中，ScaleCoef为预设的比例系数，且ScaleCoef>1，ThreshNum为预设的次数阈值。

进一步地，所述语音合成模块可以包括：

语音特征向量提取单元，用于提取所述第二语音流中的语音特征向量；

用户性别确定单元，用于根据所述语音特征向量确定用户的性别；

用户年龄确定单元，用于根据所述语音特征向量确定用户的年龄；

语音合成模型查询单元，用于在预设的语音合成模型库中查询与所述用户的性别及年龄对应的优选语音合成模型；

语音合成单元，用于使用所述优选语音合成模型对所述回复信息进行语音合成，生成所述回复语音。

进一步地，所述用户性别确定单元可以包括：

第一样本集选取子单元，用于从预设的历史样本库中分别选取男性样本集以及女性样本集，其中，所述男性样本集中的各个男性样本的语音特征向量记为：

MaleVec_m＝(MaleElm_m,1,MaleElm_m,2,...,MaleElm_m,gn,...,MaleElm_m,GN)

m为男性样本的序号，1≤m≤MaleNum，MaleNum为男性样本的总数，gn为语音特征向量的维度序号，1≤gn≤GN，GN为语音特征向量的维度总数，MaleElm_m,gn为第m个男性样本的语音特征向量在第gn个维度上的取值，MaleVec_m为第m个男性样本的语音特征向量；

所述女性样本集中的各个女性样本的语音特征向量记为：

FemVec_f＝(FemElm_f,1,FemElm_f,2,...,FemElm_f,gn,...,FemElm_f,GN)

f为女性样本的序号，1≤f≤FemNum，FemNum为女性样本的总数，FemElm_f,gn为第f个女性样本的语音特征向量在第gn个维度上的取值，FemVec_f为第f个女性样本的语音特征向量；

第一平均距离计算子单元，用于根据下式分别计算所述第二语音流中的语音特征向量与所述男性样本集以及所述女性样本集之间的平均距离：

其中，VcElm_gn为所述第二语音流中的语音特征向量在第gn个维度上的取值，MaleDis为所述第二语音流中的语音特征向量与所述男性样本集之间的平均距离，FemDis为所述第二语音流中的语音特征向量与所述女性样本集之间的平均距离；

性别确定子单元，用于根据所述第二语音流中的语音特征向量与所述男性样本集以及所述女性样本集之间的平均距离确定所述用户的性别。

进一步地，所述用户年龄确定单元可以包括：

第二样本集选取子单元，用于从历史样本库中分别选取各个年龄段的样本集，其中，各个样本的语音特征向量记为：

AgeVec_s,c＝(AgeElm_s,c,1,AgeElm_s,c,2,...,AgeElm_s,c,gn,...,AgeElm_s,c,GN)

s为各个年龄段的序号，1≤s≤SN，SN为年龄段的总数，c为样本的序号，1≤c≤CN_s，CN_s为第s个年龄段的样本集中的样本总数，AgeElm_s,c,gn为第s个年龄段的样本集中的第c个样本的语音特征向量在第gn个维度上的取值，AgeVec_s,c为第s个年龄段的样本集中的第c个样本的语音特征向量；

第二平均距离计算子单元，用于根据下式分别计算所述第二语音流中的语音特征向量与各个年龄段的样本集之间的平均距离：

其中，AgeDis_s为所述第二语音流中的语音特征向量与第s个年龄段的样本集之间的平均距离；

年龄确定子单元，用于根据下式确定所述用户的年龄：

AgeType＝argmin(AgeDis₁,AgeDis₂,...,AgeDis_s,...,AgeDis_SN)

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图5示出了本发明实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备5可包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52，例如执行上述的语音交互方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个语音交互方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至404的功能。优选地，在本实施例中，所述终端设备5可以是树莓派(Raspberry Pi)，树莓派是一款基于ARM的微型电脑主板，以SD/MicroSD卡为内存硬盘，卡片主板周围有1/2/4个USB接口和一个10/100以太网接口(A型没有网口)，可连接键盘、鼠标和网线，同时拥有视频模拟信号的电视输出接口和HDMI高清视频输出接口，以上部件全部整合在一张仅比信用卡稍大的主板上。将树莓派作为系统的核心，通过其本地处理以及其与云端服务器之间的交互来实现语音唤醒、语音识别、语义理解以及语音合成等核心服务功能。优选地，语音唤醒可以在本地实现，这样可获得较快的响应速度，且功耗低、安全性更高。语音识别、语义理解以及语音合成等服务功能均可在云端服务器中实现。

示例性的，所述计算机可读指令52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。

所述处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音交互方法，其特征在于，包括：

对预设的麦克风采集的第一语音流进行唤醒词检测；

若在所述第一语音流中检测到预设的唤醒词集合中的任意一个唤醒词，则对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息，所述第一语音流为在唤醒词检测成功之前采集的语音流，所述第二语音流为在唤醒词检测成功之后采集的语音流；其中，所述唤醒词集合根据各个唤醒词对应的误唤醒事件的次数和误唤醒率自动进行更新，误唤醒事件的次数大于预设的次数阈值，且误唤醒率大于所述唤醒词集合的平均误唤醒率与预设的比例系数的乘积的唤醒词将被从所述唤醒词集合中删除；

在预设的数据库中查询与所述文本信息对应的回复信息；

2.根据权利要求1所述的语音交互方法，其特征在于，还包括：

获取在预设的统计时段内的语音唤醒记录；

根据所述语音唤醒记录分别统计与所述唤醒词集合中各个唤醒词对应的唤醒事件的次数以及误唤醒事件的次数，所述唤醒事件为唤醒词检测成功的事件，所述误唤醒事件为在唤醒词检测成功后预设的等待时长内接收到用户下发的终止唤醒指令的事件；

根据下式计算所述唤醒词集合的平均误唤醒率：

根据下式分别计算所述唤醒词集合中各个唤醒词的误唤醒率：

其中，ErrRate_w为所述唤醒词集合中第w个唤醒词的误唤醒率；

从所述唤醒词集合中删除满足如下条件的唤醒词：

3.根据权利要求1所述的语音交互方法，其特征在于，所述对所述回复信息进行语音合成，生成回复语音包括：

提取所述第二语音流中的语音特征向量，并根据所述语音特征向量确定用户的性别及年龄；

在预设的语音合成模型库中查询与所述用户的性别及年龄对应的语音合成模型；

使用所述语音合成模型对所述回复信息进行语音合成，生成所述回复语音。

4.根据权利要求3所述的语音交互方法，其特征在于，所述根据所述语音特征向量确定所述用户的性别包括：

从预设的历史样本库中分别选取男性样本集以及女性样本集，其中，所述男性样本集中的各个男性样本的语音特征向量记为：

MaleVec_m＝(MaleElm_m,1,MaleElm_m,2,...,MaleElm_m,gn,...,MaleElm_m,GN)

所述女性样本集中的各个女性样本的语音特征向量记为：

FemVec_f＝(FemElm_f,1,FemElm_f,2,...,FemElm_f,gn,...,FemElm_f,GN)

根据下式分别计算所述第二语音流中的语音特征向量与所述男性样本集以及所述女性样本集之间的平均距离：

根据所述第二语音流中的语音特征向量与所述男性样本集以及所述女性样本集之间的平均距离确定所述用户的性别。

5.根据权利要求3所述的语音交互方法，其特征在于，所述根据所述语音特征向量确定所述用户的年龄包括：

从历史样本库中分别选取各个年龄段的样本集，其中，各个样本的语音特征向量记为：

AgeVec_s,c＝(AgeElm_s,c,1,AgeElm_s,c,2,...,AgeElm_s,c,gn,...,AgeElm_s,c,GN)

根据下式分别计算所述第二语音流中的语音特征向量与各个年龄段的样本集之间的平均距离：

其中，VcElm_gn为所述第二语音流中的语音特征向量在第gn个维度上的取值，AgeDis_s为所述第二语音流中的语音特征向量与第s个年龄段的样本集之间的平均距离；

根据下式确定所述用户的年龄：

AgeType＝argmin(AgeDis₁,AgeDis₂,...,AgeDis_s,...,AgeDis_SN)

6.一种语音交互装置，其特征在于，包括：

语音识别模块，用于若在所述第一语音流中检测到预设的唤醒词集合中的任意一个唤醒词，则对麦克风采集的第二语音流进行语音识别，得到与所述第二语音流对应的文本信息，所述第一语音流为在唤醒词检测成功之前采集的语音流，所述第二语音流为在唤醒词检测成功之后采集的语音流；其中，所述唤醒词集合根据各个唤醒词对应的误唤醒事件的次数和误唤醒率自动进行更新，误唤醒事件的次数大于预设的次数阈值，且误唤醒率大于所述唤醒词集合的平均误唤醒率与预设的比例系数的乘积的唤醒词将被从所述唤醒词集合中删除；

7.根据权利要求6所述的语音交互装置，其特征在于，还包括：

其中，ErrRate_w为所述唤醒词集合中第w个唤醒词的误唤醒率；

8.根据权利要求6所述的语音交互装置，其特征在于，所述语音合成模块包括：

语音合成模型查询单元，用于在预设的语音合成模型库中查询与所述用户的性别及年龄对应的语音合成模型；

语音合成单元，用于使用所述语音合成模型对所述回复信息进行语音合成，生成所述回复语音。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的语音交互方法的步骤。

10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的语音交互方法的步骤。