CN110556127B - 语音识别结果的检测方法、装置、设备及介质 - Google Patents
语音识别结果的检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110556127B CN110556127B CN201910907336.9A CN201910907336A CN110556127B CN 110556127 B CN110556127 B CN 110556127B CN 201910907336 A CN201910907336 A CN 201910907336A CN 110556127 B CN110556127 B CN 110556127B
- Authority
- CN
- China
- Prior art keywords
- voice
- instruction
- instructions
- voice instruction
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 21
- 230000008451 emotion Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 22
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音识别结果的检测方法、装置、设备及介质,属于网络技术领域。本发明通过获取同一用户设备相邻且时间间隔小于一定值的两个语音指令以及各自的语音识别结果,获取该两个语音指令的语音识别结果的相似度,根据该相似度确定该两个语音指令中前一条语音指令的语音识别结果是否存在错误。该语音识别结果的检测方法自动检测确定存在错误的语音识别结果,不需要人工对全部的语音指令以及语音识别结果进行检测,提高了确定语音识别错误的效率。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种语音识别结果的检测方法、装置、设备及介质。
背景技术
近年来,智能音箱等智能语音设备作为家庭场景中有效的人机交互入口,受到广泛关注,这些智能语音设备在使用过程中接收用户的语音指令,通过多项复杂技术对语音指令进行处理,实现人机交互。自动语音识别(Automatic Speech Recognition,ASR)是识别语音指令,将语音信息识别为文本信息的技术,在处理语音指令过程中有重要作用。我们通常会在语音识别后确定语音识别结果是否存在错误,从而使用这些识别错误的语音识别结果来优化ASR的模型,提高语音识别的准确率。
目前,语音识别结果的检测方法通常是构建一个包含多条语音指令的语料库,由人工标注语料库中每条语音指令对应的文字,通过对比当前语音指令的语音识别结果和人工标注的结果,从而确定语音识别结果是否存在错误。
在上述方法中,人工标注的工作量很大,而且随着ASR识别效果的不断提升,语音识别结果存在错误的几率越来越小,同等人力条件下,确定语音识别结果的检测效率不断降低,导致大量的人力资源浪费。
发明内容
本发明实施例提供了一种语音识别结果的检测方法、装置、设备及介质,可以解决相关技术中确定语音识别结果的检测效率低的问题。所述技术方案如下:
一方面,提供了一种语音识别结果的检测方法,该方法包括:
获取语音指令信息,该语音指令信息包括同一用户设备接收到的两个语音指令以及各自的语音识别结果,该两个语音指令包括第一语音指令和第二语音指令,该第二语音指令为该第一语音指令的前一条语音指令;
当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度;
当该相似度符合相似度条件时,确定该第二语音指令的语音识别结果存在错误。
在一种可能实现方式中,该当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度,包括:
当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语义差异或信号差异中至少一项;
当该语义差异或信号差异中至少一项符合错误条件时,执行获取该相似度的步骤。
在一种可能实现方式中,该语义差异或信号差异中至少一项包括多项比较结果;
该根据该语音指令信息,获取该两个语音指令的语义差异或信号差异中至少一项,包括:
根据该语音指令信息,获取该两个语音指令的第一比较结果;
当该第一比较结果符合该错误条件时,获取该两个语音指令的第二比较结果。
在一种可能实现方式中,该语义差异包括该两个语音指令的语义解析结果所属的领域关系,该信号差异包括该两个语音指令的音调比较结果、情绪比较结果或声纹比较结果中至少一项;
该语义差异或信号差异中至少一项符合错误条件,包括下述至少一项:
该两个语音指令的语义解析结果所属的领域不同,或该两个语音指令的语义解析结果所属的领域均为目标领域;
该音调比较结果指示该第一语音指令音调高于该第二语音指令的音调;
该情绪比较结果指示该第一语音指令和该第二语音指令的情绪不同;
该声纹比较结果指示该两个语音指令的声纹相同。
在一种可能实现方式中,该语音指令信息还包括该两个语音指令的语义解析结果;
该根据该语音指令信息,获取该两个语音指令的语义差异或信号差异中至少一项,包括:
根据该两个语音指令的语义解析结果,获取该两个语音指令的语义解析结果所属的领域关系。
在一种可能实现方式中,该方法还包括:
当该多项比较结果中任一项比较结果不符合该错误条件时,确定该第二语音指令的语音识别结果正确。
在一种可能实现方式中,该根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度,包括下述任一项:
获取该两个语音指令的语音识别结果之间的编辑距离,将该编辑距离作为该两个语音指令的语音识别结果的相似度;
调用声学模型,将该两个语音指令的语音识别结果输入该声学模型中,由该声学模型对两个语音识别结果的拼音进行比较,输出该两个语音指令的语音识别结果的相似度;
调用语言模型,将该两个语音指令的语音识别结果输入该语言模型中,由该语言模型对两个语音识别结果的文字进行比较,输出该两个语音指令的语音识别结果的相似度。
在一种可能实现方式中,该确定该第二语音指令的语音识别结果存在错误之后,该方法还包括:
将该第二语音指令以及该第二语音指令的语音识别结果,或两个语音指令以及各自的语音识别结果发送至目标设备,该目标设备用于提示人工对接收到的语音指令以及该语音指令的语音识别结果进行标注和检测。
一方面,提供了一种语音识别结果的检测装置,该装置包括:
获取模块,用于获取语音指令信息,该语音指令信息包括同一用户设备接收到的两个语音指令以及各自的语音识别结果,该两个语音指令包括第一语音指令和第二语音指令,该第二语音指令为该第一语音指令的前一条语音指令;
该获取模块还用于当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度;
确定模块,用于当该相似度符合相似度条件时,确定该第二语音指令的语音识别结果存在错误。
在一种可能实现方式中,该获取模块还用于:
当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语义差异或信号差异中至少一项;
当该语义差异或信号差异中至少一项符合错误条件时,执行获取该相似度的步骤。
在一种可能实现方式中,该语义差异或信号差异中至少一项包括多项比较结果;
该获取模块还用于:
根据该语音指令信息,获取该两个语音指令的第一比较结果;
当该第一比较结果符合该错误条件时,获取该两个语音指令的第二比较结果。
在一种可能实现方式中,该语义差异包括该两个语音指令的语义解析结果所属的领域关系,该信号差异包括该两个语音指令的音调比较结果、情绪比较结果或声纹比较结果中至少一项;
该语义差异或信号差异中至少一项符合错误条件,包括下述至少一项:
该两个语音指令的语义解析结果所属的领域不同,或该两个语音指令的语义解析结果所属的领域均为目标领域;
该音调比较结果指示该第一语音指令音调高于该第二语音指令的音调;
该情绪比较结果指示该第一语音指令和该第二语音指令的情绪不同;
该声纹比较结果指示该两个语音指令的声纹相同。
在一种可能实现方式中,该语音指令信息还包括该两个语音指令的语义解析结果;
该获取模块还用于:
根据该两个语音指令的语义解析结果,获取该两个语音指令的语义解析结果所属的领域关系。
在一种可能实现方式中,该确定模块还用于:
当该多项比较结果中任一项比较结果不符合该错误条件时,确定该第二语音指令的语音识别结果正确。
在一种可能实现方式中,该获取模块还用于执行下述任一项:
获取该两个语音指令的语音识别结果之间的编辑距离,将该编辑距离作为该两个语音指令的语音识别结果的相似度;
调用声学模型,将该两个语音指令的语音识别结果输入该声学模型中,由该声学模型对两个语音识别结果的拼音进行比较,输出该两个语音指令的语音识别结果的相似度;
调用语言模型,将该两个语音指令的语音识别结果输入该语言模型中,由该语言模型对两个语音识别结果的文字进行比较,输出该两个语音指令的语音识别结果的相似度。
在一种可能实现方式中,该装置还包括:
发送模块,用于将该第二语音指令以及该第二语音指令的语音识别结果,或两个语音指令以及各自的语音识别结果发送至目标设备,该目标设备用于提示人工对接收到的语音指令以及该语音指令的语音识别结果进行标注和检测。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该指令由该一个或多个处理器加载并执行以实现该语音识别结果的检测方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,该指令由处理器加载并执行以实现该语音识别结果的检测方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果至少可以包括:
本发明实施例提供的技术方案,通过获取同一用户设备相邻且时间间隔小于一定值的两个语音指令以及各自的语音识别结果,获取该两个语音指令的语音识别结果的相似度,根据该相似度确定该两个语音指令中前一条语音指令的语音识别结果是否存在错误。该语音识别结果的检测方法自动检测确定存在错误的语音识别结果,不需要人工对全部的语音指令以及语音识别结果进行检测,提高了确定语音识别错误的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音识别结果的检测方法的实施环境;
图2是本发明实施例提供的一种语音识别结果的检测方法流程图;
图3是本发明实施例提供的一种语音识别结果的检测方法流程图;
图4是本发明实施例提供的一种语音识别结果的检测装置结构示意图;
图5是本发明实施例提供的一种终端的结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种语音识别结果的检测方法的实施环境,参见图1,该实施环境中可以包括数据库110和计算机设备120,也可以单独是计算机设备120,该计算机设备120可以是服务器,也可以是终端。
在实施环境包括数据库110和计算机设备120时,数据库110可以存储有不同的语音指令以及各自的语音识别结果。计算机设备120可以用于获取语音指令信息,在获取语音指令信息时,计算机设备120可以通过网络从数据库110中获取。
在实施环境仅包括计算机设备120时,计算机设备120可以用于接收语音指令并对该语音指令进行处理得到对应的语音识别结果,还可以用于获取语音指令信息。
在一种可能实现方式中,该计算机设备120可以为服务器,该服务器可以为至少一个用户设备的服务器。该用户设备可以为智能音箱等智能语音设备中的任一个,该用户设备可以接收用户发出的语音指令,并将该语音指令发送到该服务器,由该服务器对该语音指令进行识别,得到语音识别结果,并根据语音识别结果获取用户期望的资源,将该用户期望的资源发送至该用户设备,由该用户设备执行相应的操作,对该语音指令做出反馈。
在另一种可能实现方式中,该计算机设备120可以为终端,该终端可以为智能音箱等智能语音设备中的任一个,该终端可以接收用户发出的语音指令,并对该语音指令进行识别,得到语音识别结果,根据语音识别结果获取用户期望的资源,由该终端执行相应的操作,对该语音指令做出反馈。
图2是本发明实施例提供的一种语音识别结果的检测方法流程图,该方法可以应用于服务器,也可以应用于终端,下述以该方法应用于服务器为例进行说明,参见图2,该方法包括:
201、服务器获取语音指令信息。
该语音指令信息包括同一用户设备接收到的两个语音指令以及各自的语音识别结果,该两个语音指令包括第一语音指令和第二语音指令,该第二语音指令为该第一语音指令的前一条语音指令。其中,该语音识别结果可以为语音指令经过语音识别处理得到该语音指令对应的文本信息。
在一种可能实现方式中,服务器可以从语音指令信息库中提取该语音指令信息。该语音指令信息库中可以存储有语音指令、语音指令的语音识别结果,该语音指令和语音识别结果可以通过下述步骤获取得到。
在一种可能实现方式中,该语音指令信息库中还可以包括该语音指令的语义解析结果,该语义解析结果也可以通过下述步骤获取得到。下面对该语音指令信息库中的信息获取来源进行说明:
步骤一、服务器可以接收多个用户设备的语音指令,每条语音指令可以携带有用户设备信息,该用户设备信息可以用于指示每条语音指令所属的用户设备。
步骤二、该服务器对接收到的语音指令进行语音活动检测,具体过程可以包括探测语音指令的前后断点,去掉非语音片段,得到简化后的语音指令。
步骤三、该服务器对简化后的该语音指令进行语音识别,得到对应的语音识别结果。该语音识别过程其实是将语音信号转换为文字信息的过程。
步骤四、该服务器对该语音识别结果进行语义解析,得到语义解析结果。根据该语义解析结果,可以获知该用户发出语音指令的真实意图,进而确定如何对该语音指令进行反馈。
步骤五、该服务器将语音指令信息存储至该语音指令信息库,该语音指令信息可以包括该语音指令以及该语音指令对应的语音识别结果,还可以包括语义解析结果和该语音指令携带的用户设备信息。
该语音指令信息库每次新增语音指令的相关信息后,该服务器可以从语音指令信息库中提取该新增的语音指令以及对应的语音识别结果,并提取该新增的语音指令的前一条语音指令以及对应的语音识别结果,其中,该新增的语音指令即为第一语音指令,该新增的语音指令的前一条语音指令即为第二语音指令。从而根据该语音指令信息,判断第二语音指令的语音识别结果是否存在错误。在一种可能实现方式中,该服务器可以根据该第一语音指令携带的用户设备信息,确定该第二语音指令。
202、当两个语音指令的接收时间间隔小于时间间隔阈值时,服务器根据该语音指令信息,获取该两个语音指令的语义差异或信号差异中至少一项。
该时间间隔阈值可以是服务器从接收语音指令到处理完成该语音指令,以及由用户设备进行反馈所需要的时间,在语音指令的语音识别结果存在错误,用户设备可能无法进行反馈,或者用户设备反馈错误的资源的过程中,用户往往会重新发出语音指令,或者不等待用户设备对第一条语音指令的反馈完成,就继续发送第二条语音指令来获取用户期望资源。因此,当该第一语音指令和该第二语音指令的接收时间间隔小于时间间隔阈值时,该第二语音指令可能识别错误,对该两个语音指令执行接下来的语音识别结果的检测步骤。其中,该时间间隔阈值可以由技术人员自行设置,本发明实施例对此不进行限定。
然而,当该接收时间间隔大于时间间隔阈值时,该接收时间间隔可能过大,两个语音指令缺乏连续性,无法确定该第二语音指令信息的语音识别结果是否存在错误。
该语义差异包括该两个语音指令的语义解析结果所属的领域关系,该信号差异包括该两个语音指令的音调比较结果、情绪比较结果或声纹比较结果中至少一项。在具体实施过程中,服务器获取的该两个语音指令的语义差异或信号差异可以有不同的组合,例如,服务器可以获取该两个语音指令的语义解析结果所属的领域关系以及声纹比较结果,服务器也可以再获取其他比较结果,该组合可以任意,本发明实施例对此不做限定。
203、当该语义差异或信号差异中至少一项符合错误条件时,服务器根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度。
服务器在步骤202中获取的该两个语音指令的语义差异或信号差异可以不同,对应地,判断该语义差异或信号差异中至少一项是否符合错误条件则可以有不同的错误条件。在一种可能实现方式中,该错误条件可以包括下述错误条件一至错误条件四中的至少一项:
错误条件一、该两个语音指令的语义解析结果所属的领域不同,或该两个语音指令的语义解析结果所属的领域均为目标领域。
在一种可能实现方式中,服务器获取该两个语音指令的语义解析结果所属的领域,可以根据语音指令对应的语音识别结果,获取该语音指令对应的语义解析结果,然后根据该语义解析结果获取该语义解析结果所属的领域,从而获取该两个语音指令的语义解析结果所属的领域关系。
在另一种可能实现方式中,该语音指令信息还可以包括该两个语音指令的语义解析结果,服务器可以根据该两个语音指令的语义解析结果,直接获取该两个语音指令的语义解析结果所属的领域关系。该语义解析结果可以为语音指令对应的语音识别结果经过自然语言理解得到的用户发出该语音指令的意图。
服务器获取该第一语音指令和该第二语音指令的语义解析结果所属的领域,该两个语音指令的领域可能有两种情况,可能相同,也可能不同。在判断是否符合错误条件时,可以根据该两种情况以及领域是否为目标领域来进行判断。可以设置有:两个语音指令的领域不同时,符合错误条件;而两个语音指令的领域相同时,需要两个语音指令的领域均是目标领域才符合错误条件。
具体地,当该两个语音指令的语义解析结果所属的领域为同一领域时,且该同一领域不是目标领域时,该第一语音指令和该第二语音指令不符合错误条件;当该两个语音指令的语义解析结果所属的领域为不同领域时,或者均为目标领域时,该第一语音指令和该第二语音指令符合错误条件。
该语义解析结果所属的领域可以根据语义解析结果划分有多个领域,例如天气领域、音乐领域、交通领域、闲聊领域等。在一种可能实现方式中,该目标领域可以为闲聊领域,该闲聊领域可以是在服务器处理语音指令过程中,根据该语义解析结果,无法判断该语音指令属于上述划分的天气领域、音乐领域或交通领域时,或者无法判断出该语音指令所需的资源或操作时,则将该语义解析结果所属的领域划分为闲聊领域。
两条语音指令可以为同一用户设备的连续会话,根据交互习惯,用户连续的会话一般在同一个领域,也即是该第一语音指令和该第二语音指令的语义解析结果所属的领域为同一领域。例如,第二语音指令为查找某个歌手,第一语音指令为更换下一首歌曲,该第一语音指令和该第二语音指令的语义解析结果所属的领域均为音乐领域。因此,该两个语音指令的语义解析结果所属的领域为同一领域时,该第二语音指令的语音识别结果并未存在错误。
而该两个语音指令的语义解析结果所属的领域为不同领域时,该第二语音指令的语音识别结果则可能存在错误。例如,第一语音指令为查找某个歌手,第二语音指令为查询今天的天气,该第一语音指令的语义解析结果所属的领域为音乐领域,该第二语音指令的语义解析结果所属的领域为天气领域,该两个语音指令的语义解析结果所属的领域为不同领域,该第一语音指令和该第二语音指令符合错误条件。又例如,该目标领域可以是闲聊领域,通过对该第一语音指令和该第二语音指令进行语义解析,获知语义解析结果所属的领域均为闲聊领域,该第一语音指令和该第二语音指令符合错误条件。
错误条件二、该音调比较结果指示该第一语音指令音调高于该第二语音指令的音调。
服务器获取该第一语音指令和该第二语音指令的音调,当该第一语音指令的音调高于该第二语音指令的音调时,该第一语音指令和该第二语音指令符合错误条件,当该第一语音指令的音调低于或等于该第二语音指令的音调时,该第一语音指令和该第二语音指令不符合错误条件。
在用户设备基于语音指令获取用户期望资源过程中,该语音指令的语音识别结果存在错误时,用户设备未反馈到用户期望资源,用户可能会下意识提高音量,使语音指令能够被用户设备更清楚的获取,因此该用户设备再次接收到的语音指令的声调会变高,服务器根据该音调变化,可以判断该第二语音指令的语音识别结果是否可能存在错误。
错误条件三、该情绪比较结果指示该第一语音指令和该第二语音指令的情绪不同。
在用户设备基于语音指令获取用户期望资源过程中,当该语音指令的语音识别结果存在错误,未获取到用户期望资源,用户发出的语音指令的情绪可能会发生变化,例如情绪中愤怒的成分会增加。服务器可以将该第一语音指令和该第二语音指令对应的情绪进行比较,判断该第二语音指令的语音识别结果是否可能存在错误。
错误条件四、该声纹比较结果指示该两个语音指令的声纹相同。
声纹是用电声学仪器显示的携带言语信息的声波频谱,具有特定性和相对稳定性。因而,可以根据声纹判断两个语音是否为同一人发出。服务器对该第一语音指令和该第二语音指令对应的语音的声纹进行比较,当该第一语音指令的声纹与该第二语音指令的声纹相同时,该第一语音指令和该第二语音指令由同一用户发出。一个用户在对用户设备发出一条语音指令,该用户设备对其进行语音识别错误时,该用户则会继续发出同样的语音指令,这样两条语音指令中的前面一条语音指令则可能存在错误。
当该第一语音指令的声纹与该第二语音指令的声纹不同时,该第一语音指令和该第二语音指令由不同用户发出。不同用户对用户设备可能会发出不同的语音指令,这种情况其实并非用户设备的语音识别有误,因而,可以将这种情况确定为第二语音指令的语音识别结果不存在错误。
在一种可能实现方式中,步骤202获取的该语义差异或信号差异中至少一项可以包括多项比较结果,服务器获取该多项比较结果时,可以先获取其中一项,对这一项比较结果进行错误识别判断,判断可能存在错误,再继续获取下一项,以此类推,获取到多项比较结果。具体获取过程可以如下:
服务器根据该语音指令信息,获取该两个语音指令的第一比较结果,该第一比较结果为该多项比较结果中任一项比较结果,当该第一比较结果符合错误条件时,服务器获取该两个语音指令的第二比较结果,该第二比较结果为该多项比较结果中除该第一比较结果之外的比较结果。
例如,以多项比较结果包括该两个语音指令的语义解析结果所属的领域关系、音调比较结果和声纹比较结果为例,可以为该多项比较结果设定一定的比较顺序。具体地,可以先比较该两个语音指令的语义解析结果所属的领域关系,再比较该两个语音指令的音调比较结果,最后比较该两个语音指令的声纹比较结果。
在比较该两个语音指令的语义解析结果所属的领域关系和该两个语音指令的音调比较结果时,第一比较结果为两个语音指令的语义解析结果所属的领域关系,第二比较结果为该两个语音指令的音调比较结果,当该第一比较结果符合上述错误条件一时,服务器可以获取该两个语音指令的音调比较结果作为该第二比较结果。
在比较该两个语音指令的音调比较结果和该两个语音指令的声纹比较结果时,第一比较结果为该两个语音指令的音调比较结果,第二比较结果为该两个语音指令的声纹比较结果,当该第一比较结果符合上述错误条件二时,服务器可以获取该两个语音指令的声纹比较结果作为该第二比较结果,当该第二比较结果符合上述错误条件四时,执行获取该相似度的步骤,本公开实施例对此不进行限定。
在一种可能实现方式中,当该多项比较结果中任一项比较结果不符合该错误条件时,服务器确定该第二语音指令的语音识别结果正确。在这种情况下,服务器则可以不再获取下一项比较结果,也不再执行获取该相似度的步骤。
上述步骤202和步骤203为当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度的过程,该过程可以在判断该两个语音指令的接收时间间隔小于时间间隔阈值后,又判断语义差异或信号差异中至少一项,从而确定是否执行获取该相似度的步骤,还可以当该两个语音指令的接收时间间隔小于时间间隔阈值时,直接执行获取相似度步骤,而不判断语义差异或信号差异中至少一项,本发明对此不做限定。
204、当该相似度符合相似度条件时,服务器确定该第二语音指令的语音识别结果存在错误。
该第一语音指令和该第二语音指令的语音识别结果的相似度较高时,可以认为该第二语音指令存在错误。
当该语义差异或信号差异中至少一项符合错误条件时,服务器可以根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度,在一种可能实现方式中,服务器获取两个语音指令的语音识别结果的相似度的方式,可以包括下述方式一至方式三中的任一项:
方式一、服务器获取该两个语音指令的语音识别结果之间的编辑距离,将该编辑距离作为该两个语音指令的语音识别结果的相似度。
在该方式下,相似度条件可以为该编辑距离小于编辑距离阈值。该编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,编辑距离越小,该两个字串越相似。该方式一可以是服务器获取该第一语音指令和该第二语音指令对应的语音识别结果的编辑距离,当该编辑距离小于编辑距离阈值时,该第一语音指令和该第二语音指令对应的语音识别结果相似性高,该第二语音指令的语音识别结果可能存在错误。该编辑距离阈值可以由技术人员进行设置,本发明实施例对此不进行限定。
方式二、服务器调用声学模型,将该两个语音指令的语音识别结果输入该声学模型中,由该声学模型对两个语音识别结果的拼音进行比较,输出该两个语音指令的语音识别结果的相似度。
方式三、服务器调用语言模型,将该两个语音指令的语音识别结果输入该语言模型中,由该语言模型对两个语音识别结果的文字进行比较,输出该两个语音指令的语音识别结果的相似度。
对于方式二和方式三,服务器可以将该第一语音指令和该第二语音指令的语音识别结果输入该模型,由模型计算,直接输出该第一语音指令和该第二语音指令的语音识别结果的相似度,相似度条件可以为该语音相似度大于相似度阈值。其中,该声学模型用于分析两个语音识别结果的拼音相似性,该语言模型用于分析两个语音识别结果的文字相似性。该相似度阈值可以由技术人员进行设置,本发明实施例对此不进行限定。
在上述步骤202至步骤204的判断过程中,服务器在对语音指令的语音识别结果进行检测时,可以根据用户的对话习惯来判断语音识别结果是否存在错误,该用户的对话习惯则可以体现为上述接收时间间隔、语义差异、信号差异以及相似度。
其中,该用户对话习惯可以是用户在与用户设备进行多轮对话过程中,在口语表达中的习惯,例如,用户的某一个语音指令的语音识别结果存在错误,用户设备并未对该用户的语音指令进行反馈,基于用户的对话习惯,该用户会再次发送相同或相似的语音指令至用户设备,因而,可以对同一用户设备的相邻语音指令的语音识别结果进行比较,得到两个语音识别结果的相似度,进而判断前一条语音指令的语音识别结果是否存在错误。
在一个具体示例中,该语义差异包括该两个语音指令的语义解析结果所属的领域关系,该信号差异包括该两个语音指令的声纹比较结果。
在该示例中,服务器可以先获取该第一语音指令和该第二语音指令对应的接收时间间隔,当该接收时间间隔大于时间间隔阈值时,确定该第二语音指令的语音识别结果正确,不再进行检测。
当该接收时间间隔小于时间间隔阈值时,服务器获取该两个语音指令的语义解析结果所属的领域关系,当该语义解析结果所属的领域关系不符合上述错误条件一时,确定该第二语音指令的语音识别结果正确,不再进行检测。
当该语义解析结果所属的领域关系符合上述错误条件一时,服务器获取该第一语音指令和该第二语音指令对应的声纹,当该声纹不符合上述错误条件四时,确定该第二语音指令的语音识别结果正确,不再进行检测。
当该声纹符合上述错误条件四时,服务器获取该第一语音指令和该第二语音指令对应的语音识别结果的相似度,当该相似度不符合上述相似度条件时,确定该第二语音指令的语音识别结果正确。当该相似度符合上述相似度条件时,确定该第二语音指令的语音识别结果存在错误。
205、服务器将该第二语音指令以及该第二语音指令的语音识别结果,或两个语音指令以及各自的语音识别结果发送至目标设备。
该目标设备用于提示人工对接收到的语音指令以及该语音指令的语音识别结果进行标注和检测。在服务器确定该第二语音的语音识别结果错误时,服务器可以仅将该第二语音指令以及该第二语音指令的语音识别结果发送至该目标设备,该第一语音指令的语音识别结果也可能是错误的,因此,还可以将该第二语音指令以及该第二语音指令的语音识别结果和该第一语音指令以及该第一语音指令的语音识别结果都发送至该目标设备。
相关技术人员在该目标设备上接收到上述语音指令以及该语音指令的语音识别结果后,可以播放该语音指令,以确定该语音识别结果是否存在错误。这样通过服务器自动检测和人工再次检测的两步检测步骤,可以实现对语音识别结果的更准确的检测。如果存在错误,技术人员可以对该语音指令进行标注,再将标注结果与接收到的语音识别结果输入ASR模型中,对该ASR模型的模型参数进行调整,以实现对ASR模型的优化。
服务器通过上述步骤201至步骤204的自动检测,确定了语音识别结果存在错误的语音指令,还可以将该语音指令以及该语音指令的语音识别结果再发送给该目标设备,由人工进行确认该语音指令的语音识别结果是否错误。通过自动检测,对全部的语音指令以及语音识别结果进行了筛选,将初步确定语音识别结果存在错误的语音指令,发送给人工,不用将全部的语音指令以及语音识别结果都通过人工判断,提高了确定语音识别错误的效率。
本发明实施例提供的方法,通过获取同一用户设备相邻且时间间隔小于一定值的两个语音指令以及各自的语音识别结果,获取该两个语音指令的语音识别结果的相似度,根据该相似度确定该两个语音指令中前一条语音指令的语音识别结果是否存在错误。该语音识别结果的检测方法自动检测确定存在错误的语音识别结果,不需要人工对全部的语音指令以及语音识别结果进行检测,提高了确定语音识别错误的效率。
在一个具体示例中,基于上述语音识别结果的检测方法在具体实现中可以有多种具体实现方式,下面提供一个语音识别结果的检测方法的具体应用实例,图3是本发明实施例提供的一种语音识别结果的检测方法流程图,参见图3。
图3可以分为两部分,业务流程301和错误发现流程302,其中,业务流程301也即是用户语音指令处理的正常流程,错误发现流程302也即是上述语音识别错误信息确定方法流程。
在业务流程301中,具体流程可以包括下述步骤一至步骤四:
步骤一、服务器获取用户的语音指令至中控模块。
智能音箱等设备可以检测到用户发送的语音指令,并将该语音指令通过网络发送至服务器,由服务器进行获取。该中控模块负责处理用户的语音指令,一方面协调完成用户正常的业务需求,包括但不限于对语音进行处理,对语音识别结果进行处理,对音频进行存储等;另一方面,中控模块需要记录每次处理结果,并存储至访问历史模块,通过错误发现流程302判断语音指令识别是否存在错误。
步骤二、语音活动检测(Voice Activity Detection,VAD)模块获取该语音指令,进行语音活动检测,探测用户语音指令的前后断点,将用户语音指令以一段会话为单位交由自动语音识别(Automatic Speech Recognition,ASR)模块处理。
步骤三、ASR模块识别该语音指令,将该语音指令的音频信息识别为文本信息。
步骤四、自然语言理解(Natural Language Processing,NLP)模块对该文本信息进行语义解析,根据该文本信息,分析用户的实际意图,进而获取用户期望的资源。
服务器完成上述业务流程301后,由中控模块将该语音指令对应的用户信息、语音识别结果和语义解析结果一并存储到访问历史模块,对于访问历史模块中新增的语音指令相关信息,可以执行错误发现流程302,在错误发现流程302,具体流程可以包括下述步骤一至步骤五:
步骤一、访问历史模块获取到新增的语音指令的相关信息时,将该语音指令的相关信息发送至结果过滤器模块检验是否存在语音识别错误。在一种可能实现方式中,服务器可以获取同一用户设备的该语音指令的前一条语音指令的相关信息,和该语音指令的相关信息一同发送至结果过滤器模块。该步骤也即是上述步骤201。
步骤二、结果过滤器模块获取该语音指令相关信息后,通过过滤规则库对该语音指令进行检验。若此步骤检验通过,则停止错误检验流程;否则将该语音指令的相关信息发送至声纹过滤器模块继续检验。
该过滤规则库可以基于用户访问习惯构建。该过滤规则库可以包括多个方面的检验,在一种可能实现方式中,规则库可以包含两方面内容,一是时间规则,也即是上述对于步骤202中服务器获取该两个语音指令的接收时间间隔小于时间间隔阈值的该两个语音指令。二是语义规则,也即是上述语义差异包括的该两个语音指令的语义解析结果所属的领域关系,在一种具体可能实现方式中,服务器可以定义语义规则白名单,如果前后两个会话的识别领域为同一个识别领域,且该语义识别领域在语义规则白名单内,则认为是正常会话。
在一种可能实现方式中,该语音指令相关信息的历史记录格式如下:
用户身份标识号码(IDentity,ID)|时间戳|识别结果|语义识别领域
访问历史模块获取到新增的语音指令相关信息时,针对同一用户ID,先比较本次该语音指令时间戳与同一用户设备的该语音指令的前一条语音指令时间戳是否符合时间规则;然后在比较两个语音指令的语义识别领域是否符合语义规则,当该语音指令既不符合时间规则又不符合语义规则,该语音指令没有通过过滤规则库检验。
步骤三、声纹过滤器模块获取没有通过过滤规则库检验的语音指令,进行声纹对比。
由于同一台用户设备可能有多个用户同时在使用,比如用户A语音指令“播放歌曲”,用户B语音指令“换一首”。像这种情况,虽然也是连续的语音操作,但是由于是不同用户,则不认为语音识别有问题。上述用户A和用户B的两条语音指令没有通过上述步骤二中的检验时,通过步骤三判断两条语音指令是同一用户的语音指令,则用户A和用户B的两条语音指令通过声纹对比检验。
步骤四、错误识别计算模块获取没有通过声纹过滤器模块的声纹对比检验的语音指令,计算连续语音指令的相似度,计算方法可以采用编辑距离、调用声学模型、调用语言模型等方法。也即是上述步骤203和步骤204中根据两个语音指令的语音识别结果的相似度,确定该第二语音指令的语音识别结果是否存在错误。
该步骤二至步骤四也即是上述步骤202至步骤204描述的过程。
步骤五、对于没有通过错误识别计算模块的语音相似度检验的语音指令,将该语音指令发送至人工标注平台,由标注员进行人工标注。该步骤也即是上述步骤205。
图4是本发明实施例提供的一种语音识别结果的检测装置结构示意图,参见图4,该装置包括获取模块401和确定模块402。
获取模块401,用于获取语音指令信息,该语音指令信息包括同一用户设备接收到的两个语音指令以及各自的语音识别结果,该两个语音指令包括第一语音指令和第二语音指令,该第二语音指令为该第一语音指令的前一条语音指令。
该获取模块401还用于当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语音识别结果的相似度。
确定模块402,用于当该相似度符合相似度条件时,确定该第二语音指令的语音识别结果存在错误。
在一种可能实现方式中,该获取模块还用于:
当该两个语音指令的接收时间间隔小于时间间隔阈值时,根据该语音指令信息,获取该两个语音指令的语义差异或信号差异中至少一项;
当该语义差异或信号差异中至少一项符合错误条件时,执行获取该相似度的步骤。
在一种可能实现方式中,该语义差异或信号差异中至少一项包括多项比较结果;
该获取模块还用于:
根据该语音指令信息,获取该两个语音指令的第一比较结果;
当该第一比较结果符合该错误条件时,获取该两个语音指令的第二比较结果。
在一种可能实现方式中,该语义差异包括该两个语音指令的语义解析结果所属的领域关系,该信号差异包括该两个语音指令的音调比较结果、情绪比较结果或声纹比较结果中至少一项;
该语义差异或信号差异中至少一项符合错误条件,包括下述至少一项:
该两个语音指令的语义解析结果所属的领域不同,或该两个语音指令的语义解析结果所属的领域均为目标领域;
该音调比较结果指示该第一语音指令音调高于该第二语音指令的音调;
该情绪比较结果指示该第一语音指令和该第二语音指令的情绪不同;
该声纹比较结果指示该两个语音指令的声纹相同。
在一种可能实现方式中,该语音指令信息还包括该两个语音指令的语义解析结果;
该获取模块还用于:
根据该两个语音指令的语义解析结果,获取该两个语音指令的语义解析结果所属的领域关系。
在一种可能实现方式中,该确定模块还用于:
当该多项比较结果中任一项比较结果不符合该错误条件时,确定该第二语音指令的语音识别结果正确。
在一种可能实现方式中,该获取模块还用于执行下述任一项:
获取该两个语音指令的语音识别结果之间的编辑距离,将该编辑距离作为该两个语音指令的语音识别结果的相似度;
调用声学模型,将该两个语音指令的语音识别结果输入该声学模型中,由该声学模型对两个语音识别结果的拼音进行比较,输出该两个语音指令的语音识别结果的相似度;
调用语言模型,将该两个语音指令的语音识别结果输入该语言模型中,由该语言模型对两个语音识别结果的文字进行比较,输出该两个语音指令的语音识别结果的相似度。
在一种可能实现方式中,该装置还包括:
发送模块,用于将该第二语音指令以及该第二语音指令的语音识别结果,或两个语音指令以及各自的语音识别结果发送至目标设备,该目标设备用于提示人工对接收到的语音指令以及该语音指令的语音识别结果进行标注和检测。
本发明实施例提供的装置,通过获取同一用户设备相邻且时间间隔小于一定值的两个语音指令以及各自的语音识别结果,获取该两个语音指令的语音识别结果的相似度,根据该相似度确定该两个语音指令中前一条语音指令的语音识别结果是否存在错误。该语音识别结果的检测方法自动检测确定存在错误的语音识别结果,不需要人工对全部的语音指令以及语音识别结果进行检测,提高了确定语音识别错误的效率。
需要说明的是:上述实施例提供的语音识别结果的检测装置在检测语音识别结果时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音识别结果的检测装置与语音识别结果的检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本发明实施例提供的一种终端的结构示意图。该终端500可以是:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端500包括有:一个或多个处理器501和一个或多个存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本发明中方法实施例提供的语音识别结果的检测方法。
在一些实施例中,终端500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。
外围设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本发明对此不加以限定。
显示屏505用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位终端500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时,由处理器501根据用户对显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制显示屏505的显示亮度。具体地,当环境光强度较高时,调高显示屏505的显示亮度;当环境光强度较低时,调低显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图6是本发明实施例提供的一种服务器的结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,CPU)601和一个或多个的存储器602,其中,该一个或多个存储器602中存储有至少一条指令,该至少一条指令由该一个或多个处理器601加载并执行以实现上述各个方法实施例提供的语音识别结果的检测方法。当然,该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器600还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述实施例中的语音识别结果的检测方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音识别结果的检测方法,其特征在于,所述方法包括:
获取语音指令信息,所述语音指令信息包括同一用户设备接收到的两个语音指令以及各自通过自动语音识别ASR模型获得的语音识别结果,所述两个语音指令包括第一语音指令和第二语音指令,所述第二语音指令为所述第一语音指令的前一条语音指令;
当所述两个语音指令的接收时间间隔小于时间间隔阈值时,根据所述语音指令信息,获取所述两个语音指令的语音识别结果的相似度;
当所述相似度符合相似度条件时,确定所述第二语音指令的语音识别结果存在错误;
将所述第二语音指令以及所述第二语音指令的语音识别结果,或两个语音指令以及各自的语音识别结果发送至目标设备,进而将对语音指令进行标注的标注结果与所述目标设备接收到的语音识别结果输入所述ASR模型中,对所述ASR模型的模型参数进行调整;所述目标设备用于提示人工对接收到的语音指令以及所述语音指令的语音识别结果进行标注和检测。
2.根据权利要求1所述的方法,其特征在于,所述当所述两个语音指令的接收时间间隔小于时间间隔阈值时,根据所述语音指令信息,获取所述两个语音指令的语音识别结果的相似度,包括:
当所述两个语音指令的接收时间间隔小于时间间隔阈值时,根据所述语音指令信息,获取所述两个语音指令的语义差异或信号差异中至少一项;
当所述语义差异或信号差异中至少一项符合错误条件时,执行获取所述相似度的步骤。
3.根据权利要求2所述的方法,其特征在于,所述语义差异或信号差异中至少一项包括多项比较结果;
所述根据所述语音指令信息,获取所述两个语音指令的语义差异或信号差异中至少一项,包括:
根据所述语音指令信息,获取所述两个语音指令的第一比较结果;
当所述第一比较结果符合所述错误条件时,获取所述两个语音指令的第二比较结果。
4.根据权利要求2所述的方法,其特征在于,所述语义差异包括所述两个语音指令的语义解析结果所属的领域关系,所述信号差异包括所述两个语音指令的音调比较结果、情绪比较结果或声纹比较结果中至少一项;
所述语义差异或信号差异中至少一项符合错误条件,包括下述至少一项:
所述两个语音指令的语义解析结果所属的领域不同,或所述两个语音指令的语义解析结果所属的领域均为目标领域;
所述音调比较结果指示所述第一语音指令音调高于所述第二语音指令的音调;
所述情绪比较结果指示所述第一语音指令和所述第二语音指令的情绪不同;
所述声纹比较结果指示所述两个语音指令的声纹相同。
5.根据权利要求2所述的方法,其特征在于,所述语音指令信息还包括所述两个语音指令的语义解析结果;
所述根据所述语音指令信息,获取所述两个语音指令的语义差异或信号差异中至少一项,包括:
根据所述两个语音指令的语义解析结果,获取所述两个语音指令的语义解析结果所属的领域关系。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当多项比较结果中任一项比较结果不符合所述错误条件时,确定所述第二语音指令的语音识别结果正确。
7.根据权利要求1所述的方法,其特征在于,所述根据所述语音指令信息,获取所述两个语音指令的语音识别结果的相似度,包括下述任一项:
获取所述两个语音指令的语音识别结果之间的编辑距离,将所述编辑距离作为所述两个语音指令的语音识别结果的相似度;
调用声学模型,将所述两个语音指令的语音识别结果输入所述声学模型中,由所述声学模型对两个语音识别结果的拼音进行比较,输出所述两个语音指令的语音识别结果的相似度;
调用语言模型,将所述两个语音指令的语音识别结果输入所述语言模型中,由所述语言模型对两个语音识别结果的文字进行比较,输出所述两个语音指令的语音识别结果的相似度。
8.一种语音识别结果的检测装置,其特征在于,所述装置包括:
获取模块,用于获取语音指令信息,所述语音指令信息包括同一用户设备接收到的两个语音指令以及各自通过自动语音识别ASR模型获得的语音识别结果,所述两个语音指令包括第一语音指令和第二语音指令,所述第二语音指令为所述第一语音指令的前一条语音指令;
所述获取模块还用于当所述两个语音指令的接收时间间隔小于时间间隔阈值时,根据所述语音指令信息,获取所述两个语音指令的语音识别结果的相似度;
确定模块,用于当所述相似度符合相似度条件时,确定所述第二语音指令的语音识别结果存在错误;
调整模块,用于将所述第二语音指令以及所述第二语音指令的语音识别结果,或两个语音指令以及各自的语音识别结果发送至目标设备,进而将对语音指令进行标注的标注结果与所述目标设备接收到的语音识别结果输入所述ASR模型中,对所述ASR模型的模型参数进行调整;所述目标设备用于提示人工对接收到的语音指令以及所述语音指令的语音识别结果进行标注和检测。
9.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音识别结果的检测方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音识别结果的检测方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910907336.9A CN110556127B (zh) | 2019-09-24 | 2019-09-24 | 语音识别结果的检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910907336.9A CN110556127B (zh) | 2019-09-24 | 2019-09-24 | 语音识别结果的检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110556127A CN110556127A (zh) | 2019-12-10 |
CN110556127B true CN110556127B (zh) | 2021-01-01 |
Family
ID=68741328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910907336.9A Active CN110556127B (zh) | 2019-09-24 | 2019-09-24 | 语音识别结果的检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110556127B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199730B (zh) * | 2020-01-08 | 2023-02-03 | 北京小米松果电子有限公司 | 语音识别方法、装置、终端及存储介质 |
WO2021138898A1 (zh) * | 2020-01-10 | 2021-07-15 | 深圳市欢太科技有限公司 | 语音识别结果检测方法及装置、存储介质 |
CN111292749B (zh) * | 2020-02-10 | 2023-06-09 | 北京声智科技有限公司 | 智能语音平台的会话控制方法及装置 |
CN111816174B (zh) * | 2020-06-24 | 2024-09-03 | 北京小米松果电子有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN112017635A (zh) * | 2020-08-27 | 2020-12-01 | 北京百度网讯科技有限公司 | 用于检测语音识别结果的方法、装置 |
CN112735395B (zh) * | 2020-12-25 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
CN112542169B (zh) * | 2020-12-25 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种语音识别处理方法与装置 |
CN113028597B (zh) * | 2021-03-19 | 2022-04-05 | 珠海格力电器股份有限公司 | 语音的控制方法及装置 |
CN113380229B (zh) * | 2021-06-08 | 2023-04-28 | 阿波罗智联(北京)科技有限公司 | 语音响应速度确定方法、相关装置及计算机程序产品 |
CN114155864A (zh) * | 2021-11-26 | 2022-03-08 | 北京声智科技有限公司 | 电梯控制方法、装置、电子设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100246837A1 (en) * | 2009-03-29 | 2010-09-30 | Krause Lee S | Systems and Methods for Tuning Automatic Speech Recognition Systems |
CN105869642B (zh) * | 2016-03-25 | 2019-09-20 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
CN106486126B (zh) * | 2016-12-19 | 2019-11-19 | 北京云知声信息技术有限公司 | 语音识别纠错方法及装置 |
US10354642B2 (en) * | 2017-03-03 | 2019-07-16 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
CN106875949B (zh) * | 2017-04-28 | 2020-09-22 | 深圳市大乘科技股份有限公司 | 一种语音识别的校正方法及装置 |
KR102356889B1 (ko) * | 2017-08-16 | 2022-01-28 | 삼성전자 주식회사 | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
CN107657947B (zh) * | 2017-09-20 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN107741928B (zh) * | 2017-10-13 | 2021-01-26 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
-
2019
- 2019-09-24 CN CN201910907336.9A patent/CN110556127B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
Non-Patent Citations (2)
Title |
---|
Estimating Speech Recognition Accuracy Based on Error Type Classification;Atsunori Ogawa、Takaaki Hori,et al.;《Transactions on Audio, Speech, and Language Processing》;IEEE;20161231;第24卷;第2400-2413页 * |
错音检测及其在语音教学中的应用综述;万济萍等;《中文信息学报》;20090715(第04期);第95-102页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110556127A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110556127B (zh) | 语音识别结果的检测方法、装置、设备及介质 | |
CN110933330A (zh) | 视频配音方法、装置、计算机设备及计算机可读存储介质 | |
CN111564152B (zh) | 语音转换方法、装置、电子设备及存储介质 | |
CN110322760B (zh) | 语音数据生成方法、装置、终端及存储介质 | |
CN110572716B (zh) | 多媒体数据播放方法、装置及存储介质 | |
WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
CN108922531B (zh) | 槽位识别方法、装置、电子设备及存储介质 | |
CN111524501A (zh) | 语音播放方法、装置、计算机设备及计算机可读存储介质 | |
CN110992927B (zh) | 音频生成方法、装置、计算机可读存储介质及计算设备 | |
CN112735429B (zh) | 确定歌词时间戳信息的方法和声学模型的训练方法 | |
CN111105788B (zh) | 敏感词分数检测方法、装置、电子设备及存储介质 | |
CN111370025A (zh) | 音频识别方法、装置及计算机存储介质 | |
CN113220590A (zh) | 语音交互应用的自动化测试方法、装置、设备及介质 | |
CN110798327B (zh) | 消息处理方法、设备及存储介质 | |
CN111048109A (zh) | 声学特征的确定方法、装置、计算机设备及存储介质 | |
CN111428079B (zh) | 文本内容处理方法、装置、计算机设备及存储介质 | |
CN111081277B (zh) | 音频测评的方法、装置、设备及存储介质 | |
CN110837557B (zh) | 摘要生成方法、装置、设备及介质 | |
CN112667844A (zh) | 检索音频的方法、装置、设备和存储介质 | |
CN113744736B (zh) | 命令词识别方法、装置、电子设备及存储介质 | |
CN111613213A (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN111223475A (zh) | 语音数据生成方法、装置、电子设备及存储介质 | |
CN114299935A (zh) | 唤醒词识别方法、装置、终端及存储介质 | |
CN113362836A (zh) | 训练声码器方法、终端及存储介质 | |
CN116860913A (zh) | 语音交互方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |