CN104008132A - 语音地图搜索方法及系统 - Google Patents
语音地图搜索方法及系统 Download PDFInfo
- Publication number
- CN104008132A CN104008132A CN201410185061.XA CN201410185061A CN104008132A CN 104008132 A CN104008132 A CN 104008132A CN 201410185061 A CN201410185061 A CN 201410185061A CN 104008132 A CN104008132 A CN 104008132A
- Authority
- CN
- China
- Prior art keywords
- server
- client
- recognition result
- obtains
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003068 static effect Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 22
- 238000013138 pruning Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 230000019771 cognition Effects 0.000 claims description 8
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 7
- 238000004064 recycling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音地图搜索方法及系统,其中,语音地图搜索方法包括:采集语音信号;对语音信号进行初步识别,得到初步识别结果;判断初步识别结果是否可信;若所述初步识别结果可信,输出所述初步识别结果;若初步识别结果不可信,则将语音信号及初步识别结果发送至服务器,并接收服务器返回的对语音信号进行最终识别得到的最终识别结果,以及对最终识别结果进行模糊检索得到的搜索结果。本发明的语音地图搜索方法及系统对客户端要求较低、搜索速度快,且识别准确率较高。
Description
技术领域
本发明涉及语音地图搜索领域,特别是涉及一种语音地图搜索方法及系统。
背景技术
随着城市道路日益复杂,人们对地图搜索的需求越来越大,语音地图搜索由于其便捷性,正逐渐成为用户青睐的地图搜索方式。
传统的语音地图搜索系统,通常采用本地识别,即语音采集和识别以及地名搜索都在客户端完成。客户端首先将用户输入的语音音频信息转换为文本信息,再对识别得到的文本信息进行搜索,由于地图库中地点条目非常多,可到达数百万甚至上千万,造成语音识别系统的解码空间长而复杂,对所需的硬件提出较高的要求,这增加了客户端的成本,而且结构复杂、运行速度慢。此外,用户在进行语音地图搜索时,所说内容具有一定的随意性,这导致用户语音输入的内容与数据库中保存的地名条目的用词顺序不同或用词本身有微小差异,如用户语音输入的是“东门茂业百货”,而数据库中保存的是“茂业百货东门店”,一旦出现上述情况,传统的语音地图搜索系统往往无法正确识别用户所说内容。
发明内容
基于此,有必要针对传统语音地图搜索系统对客户端要求高而搜索速度慢,且不易正确识别的问题,提供一种对客户端要求较低、搜索速度快,且识别准确率较高的语音地图搜索方法及系统。
一种语音地图搜索的方法,包括以下步骤:
采集语音信号;
初步识别,对语音信号进行初步识别,得到初步识别结果;
判断初步识别结果是否可信;
若初步识别结果可信,输出初步识别结果;
若初步识别结果不可信,则将语音信号及初步识别结果发送至服务器,并接收服务器返回的对语音信号进行最终识别得到的最终识别结果,以及对最终识别结果进行模糊检索得到的搜索结果。
在其中一个实施例中,对语音信号进行初步识别,得到初步识别结果包括以下步骤:
获取客户端静态解码图;
利用客户端静态解码图识别语音信号,得到客户端音素网格;
根据客户端音素网格求解最佳路径,得到初步识别文本;
计算并输出客户端音素网格的解码最佳路径的置信度。
在其中一个实施例中,最终识别包括以下步骤:
获取服务器静态解码图;
获取语音信号及客户端音素网格;
根据语音信号生成服务器音素网格,然后根据服务器音素网格对客户端音素网格进行扩展,得到最终音素网格;
利用服务器静态解码图对最终音素网格进行解码,得到语音输入内容;
识别语音输入内容,得到文本内容。
在其中一个实施例中,采集语音信号之前,该方法还包括建立索引库;建立索引库包括以下步骤:
根据地名生成索引文档,该索引文档包括地名词条、地名词条长度以及地名一元分词词条;
对所有索引文档建立索引并保存为索引文件;
将所有索引文件加入索引库。
在其中一个实施例中,对最终识别结果进行模糊检索得到的搜索结果包括以下步骤:
获取关键词列表;
根据关键词列表移除文本内容中的关键词,得到地名文本内容;
对地名文本内容进行词合并操作,得到合并文本内容;
根据合并文本内容构建模糊检索词串;
在索引库内对模糊检索词串进行检索,并输出搜索结果。
在其中一个实施例中,该方法还包括:
预设搜索结果的显示数量;
在得到搜索结果后,按照搜索结果与语音信号的匹配度从高到低筛选得到符合预设数量的搜索显示结果;
显示该搜索显示结果。
在其中一个实施例中,采集语音信号之前,该方法还包括训练语音识别模型得到服务器静态解码图和客户端静态解码图;训练语音识别模型得到服务器静态解码图和客户端静态解码图包括以下步骤:
训练背景语音模型和语言模型,语言模型包括背景语言模型和对该背景语言模型剪枝后得到的剪枝语言模型;
利用语言模型生成发音字典;
利用背景语音模型、背景语言模型和发音字典生成供服务器使用的服务器静态解码图;
利用背景语音模型、剪枝语言模型和发音字典生成供客户端使用的客户端静态解码图。
一种语音地图搜索系统,包括客户端,该客户端包括:
语音采集模块,用于采集语音信号;
初步识别模块,用于对语音信号进行初步识别,得到初步识别结果;
置信度判决模块,用于判断初步识别结果是否可信;
客户端输出模块,用于在初步识别结果可信时,输出初步识别结果;
传输模块,用于在初步识别结果不可信时,将语音信号及初步识别结果发送至服务器,并接收服务器返回的对语音信号进行最终识别得到的最终识别结果,以及对该最终识别结果进行模糊检索得到的搜索结果。
在其中一个实施例中,初步识别模块获取客户端静态解码图,利用客户端静态解码图识别语音信号得到客户端音素网格,并根据客户端音素网格求解最佳路径,得到初步识别文本,以及计算并输出客户端音素网格的解码最佳路径的置信度。
在其中一个实施例中,该系统还包括服务器,服务器包括:
最终识别模块,用于对接收语音信号和客户端音素网格,并识别语音信号得到文本内容;
检索词处理模块,用于对文本内容进行处理,得到模糊检索词串;
服务器检索模块,用于对模糊检索词串进行检索;以及
服务器输出模块,用于输出搜索结果。
在其中一个实施例中,客户端还包括显示模块,用于预设搜索结果的显示数量,并在得到搜索结果后,按照搜索结果与语音信号的匹配度从高到低筛选得到符合预设的显示数量的搜索显示结果,最后显示该搜索显示结果。
在其中一个实施例中,最终识别模块获取服务器静态解码图,根据语音信号生成服务器音素网格,根据服务器音素网格对客户端音素网格进行扩展,得到最终音素网格,再利用服务器静态解码图对最终音素网格进行解码,得到语音输入内容,最后识别语音输入内容,得到文本内容。
在其中一个实施例中,客户端静态解码图和服务器静态解码图通过训练语音识别模型得到。
在其中一个实施例中,检索词处理模块包括:
关键词移除模块,用于建立关键词列表,并利用关键词列表移除文本内容中的关键词,得到地名文本内容;
词合并模块,用于对地名文本内容进行词合并操作,得到合并文本内容;以及
模糊检索词串构建模块,用于根据合并文本内容构建模糊检索词串。
在其中一个实施例中,服务器检索模块调用索引库,用于供服务器检索模块进行模糊检索,索引库包括多个索引文件,每个索引文件由索引文档构成,索引文档包括地名词条、地名词条长度以及地名一元分词词条。
一种语音地图搜索系统,包括客户端、语音识别服务器和地图搜索服务器,其中:
客户端用于采集语音信号并进行初步识别,得到初步识别结果,判断初步识别结果是否可信,若初步识别结果可信,输出初步识别结果,若初步识别结果不可信,则将语音信号及初步识别结果发送至语音识别服务器;
语音识别服务器用于接收语音信号并进行最终识别,得到最终识别结果;
地图搜索服务器用于对最终识别结果进行模糊检索得到的搜索结果。
上述语音地图搜索方法及系统,仅利用客户端完成简单的识别任务,将更复杂的识别任务交由服务器处理,降低了对客户端硬件的要求,提升了搜索的速度。此外,在服务器上进行模糊检索,也提高了地名识别的准确率。
附图说明
图1为本发明的语音地图搜索系统的架构示意图;
图2为本发明的语音地图搜索方法的流程图;
图3为本发明的语音地图搜索方法的初步识别流程图;
图4为本发明的语音地图搜索方法的最终识别及搜索流程图;
图5为本发明的语音地图搜索方法的显示模块工作流程图;
图6为本发明的语音识别模型的训练过程示意图;
图7为本发明的语音地图搜索系统的客户端结构示意图;
图8为本发明的语音地图搜索系统的服务器结构示意图;
图9为本发明的语音地图搜索系统的服务器的检索功能模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为语音地图搜索系统的架构示意图。如图1所示,一种语音地图搜索系统,包括服务器集群、服务器网关和分散在不同网络环境中的各个客户端。
服务器集群中包含两种类型的服务器,即语音识别服务器和基于文本的地图搜索服务器,它们之间的任务调度和通信由服务器网关负责。此外,语音识别服务器和地图搜索服务器可集成为一个服务器。
服务器网关负责整个服务器集群对外的信息交换,包括请求接收、任务排队、任务分发、服务器集群负载均衡、服务器间通信及网络异常情况处理等。
客户端设备可以是各种移动设备,包括但不限于手机、平板电脑、车机等,以及其他需要地图搜索的应用场景的设备。客户端设备上安装有专用的客户端软件,且能实现语音信号的采集和初步的数据处理及语音识别。
客户端用于采集语音信号并进行初步识别,得到初步识别结果,判断该初步识别结果是否可信。具体的,客户端识别采集到的语音信号,得到客户端音素网格;根据客户端音素网格求解最佳路径,得到初步识别文本;计算并输出客户端音素网格的解码最佳路径的置信度。
置信度,是指在没有参考答案的情况下,对识别结果的可靠性的客观性度量。置信度的计算方法一般是根据音素网格中的对数似然比等参数进行计算,某一个识别结果的置信度越高,即该结果越可信。
最佳路径,是指网格中对数似然比之和最高的那一条路径。
在客户端预设一个置信度阙值,就可以根据输出的客户端音素网格的解码最佳路径的置信度判断初步识别结果是否可信。具体的,当输出的置信度大于该置信度阙值时,认为初步识别结果可信;当输出的置信度小于该置信度阙值时,认为初步识别结果不可信。
若该初步识别结果可信,输出该初步识别结果,若该初步识别结果不可信,则将该语音信号及该初步识别结果发送至语音识别服务器。
语音识别服务器用于接收所述语音信号并进行最终识别,得到最终识别结果。具体的,语音识别服务器获取语音信号和客户端音素网格后,根据语音信号生成服务器音素网格,根据服务器音素网格对客户端音素网格进行扩展,得到最终音素网格,再对最终音素网格进行解码,得到语音输入内容,最后识别语音输入内容,得到文本内容,即最终识别结果。
地图搜索服务器用于对该最终识别结果进行模糊检索得到的搜索结果。具体的,地图搜索服务器对语音识别服务器识别得到的文本内容进行处理,得到模糊检索词串,再对该模糊检索词串进行检索,得到搜索结果。
图2为一个实施例中语音地图搜索方法的流程图。图2中的语音地图搜索方法运行于图1的系统架构中,以客户端的角度进行描述。如图2所示,该语音地图搜索方法包括以下步骤:
S200,采集语音信号。该步骤在客户端完成,由客户端软件通过客户端的声卡实时获得音频输入。
采集到语音信号之后,通常会对该语音信号进行一系列处理,例如对采集到的语音信号进行降噪处理,由于客户端采集的语音信号一般含有噪声,因此首先需要对其进行降噪处理,降低噪声的影响。
还可以对语音信号进行滤波、预加重、分帧、和加窗等预处理,其中,
滤波,是将语音信号中特定波段频率滤除的操作,用于抑制和防止干扰。
预加重,是指通过一个一阶有限激励响应高通滤波器,使语音信号的频谱变得平坦。
分帧,即根据语音信号的短时平稳特性,以帧为单位对语音信号进行处理。
加窗,指采用汉明窗对一帧语音信号加窗,以减小语音信号的随机起伏。
为了提高语音识别的准确率,还会对语音信号进行特征提取,具体的,可以采用提取梅尔频谱倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的方式。MFCC是计算语音信号的Mel频率倒谱系数,Mel频率是基于人耳听觉特性提出来的,它与频率成非线性对应关系,Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的频谱特征。
在一个实施例中,步骤S200之前,还包括:
S100,训练语音识别模型得到客户端静态解码图和服务器静态解码图。
如图3所示,步骤S100可包括以下步骤(1)(2)(3)(4):
(1)训练背景语音模型和语言模型。
具体的,利用大量事先标注好的语音数据训练可通用的背景语音模型AM0,在本实施例中采用高斯混合-隐马尔可夫模型(Gaussian Mixture-Hidden MarkovModel,GMM-HMM);
利用大量平衡的汉语文本语料训练可通用的背景语言模型LM1,同时生成词表V1,语言模型建模方法采用三元语法;
以客户端设备能够承载的模型大小为准,设定合适的概率阈值,对背景语言模型LM1进行剪枝,去掉概率低于概率阈值的部分,以大幅降低语言模型的体积,得到剪枝语言模型LM1S,剪枝过程中所用概率阈值可调整;
将地名条目作为孤立词,训练基于一元语法的语言模型LM2,所有地名条目可作为孤立词形式的词表V2;
将地名条目进行一元分词,训练基于四元语法的语言模型LM3,同时生成字形式的词表V3;
将地名条目按可变词表进行自适应分词,训练基于三元语法的语言模型LM4,可变词表可通过公开途径收集得到,语言模型LM4对应的词表记为词表V4;
对背景语言模型LM1、语言模型LM2、语言模型LM3和语言模型LM4进行插值,生成供服务器使用的背景语言模型LM0,插值权重分别记为w1、w2、w3和w4,在本实施例中,取w1=0.15,w2=0.35,w3=0.2,w4=0.3,在其他实施例中,只要保证w1+w2+w3+w4=1,均可以实现背景语言模型LM0的生成;
对剪枝语言模型LM1S、语言模型LM2、语言模型LM3和语言模型LM4进行插值,生成供客户端使用的剪枝语言模型LM0S,插值权重分别记为w1s、w2s、w3s和w4s,在本实施例中,取w1s=0.25,w2s=0.35,w3s=0.15,w4s=0.25,在其他实施例中,只要保证w1+w2+w3+w4=1,均可以实现剪枝语言模型LM0S的生成。
(2)利用语言模型生成发音字典。
具体的,将词表V1、词表V2、词表V3和词表V4组合在一起,排除LM0和LM0S中未出现的词,生成词表V0;
根据词表V0生成对应的发音字典L0。
(3)利用背景语音模型AM0、背景语言模型LM0和发音字典L0生成供服务器使用的加权有限状态机(WFST,weighted finite state transducer)形式的服务器静态解码图HCLG。
(4)利用背景语音模型AM0、剪枝语言模型LM0S和发音字典L0生成供客户端使用的加权有限状态机(WFST,weighted finite state transducer)形式的客户端静态解码图HCLGS。
本实施例的语音识别模型包括设置在客户端的小型语音识别模型和设置在服务器的大型语音识别模型,具有较高的识别准确率。
在一个实施例中,步骤S100之前,还包括:
S000,建立索引库。具体的,步骤S000可包括以下步骤(1)(2)(3):
(1)生成索引文档,该索引文档包括地名词条、地名词条长度以及地名一元分词词条。以地名词条“北京大学深圳研究院”为例,该地名词条的长度为9,与该词条对应的一元分词词条为“北京大学深圳研究院”。
(2)对所有索引文档建立索引并保存为索引文件。
(3)将所有索引文件加入索引库。
本实施例的索引库不仅包含地名词条,还包含地名一元分词词条,便于检索。
S300,对语音信号进行初步识别,得到初步识别结果。
如图4所示,步骤S300可包括步骤S301-S304:
S301,获取客户端静态解码图HCLGS;
S302,利用客户端静态解码图HCLGS识别语音信号,得到客户端音素网格,具体的,客户端音素网格是根据设置在客户端的小型语音识别模型生成的基于汉语音素的网格;
S303,根据客户端音素网格,求解最佳路径,生成初步识别文本;
S304,计算并输出客户端音素网格的解码最佳路径的置信度。
客户端仅对语音信号进行初步识别,并生成客户端音素网格,因此客户端不需要很高的硬件要求,也便于进行后续的识别。
S400,判断初步识别结果是否可信。具体的,通过客户端的一个置信度判决模块,预先设定一个置信度阙值,当客户端音素网格的解码最佳路径的置信度大于该置信度阙值时,认为初步识别结果可信;当客户端音素网格的解码最佳路径的置信度小于该置信度阙值时,认为初步识别结果不可信。
S500,若初步识别结果可信,输出初步识别结果。
客户端的语音识别模型较小,只能识别很常用的标志性地名,因为是常用的标志性地名,不需要搜索类似的地名,所以如果客户端认为初步识别结果可信,就会直接输出识初步别结果,该初步识别结果只有一条。
S600,若初步识别结果不可信,则将语音信号及初步识别结果发送至服务器,并接收服务器返回的对语音信号进行最终识别得到的最终识别结果,以及对最终识别结果进行模糊检索得到的搜索结果。
如图5所示,步骤S600可包括步骤S601-S610:
S601,获取服务器静态解码图HCLG。
S602,获取语音信号及客户端音素网格。
S603,根据语音信号生成服务器音素网格,然后根据服务器音素网格对客户端音素网格进行扩展,得到最终音素网格。
S604,利用服务器静态解码图HCLG对最终音素网格进行解码,得到语音输入内容。
S605,识别语音输入内容,得到文本内容W。以语音输入内容是“我要去深圳大学”为例,识别得到的文本内容为“我要去深圳大学”。
S606,获取关键词列表。关键词列表预先经过收集整理,用于过滤识别结果中可能存在的特定句式关键词,例如“我想去”、“导航到”、“在哪儿”、“在哪里”、“附近有”、“最近的”、“吗”等。
S607,根据关键词列表移除文本内容W中的关键词,得到地名文本内容W1。仍以语音输入内容是“我要去深圳大学”为例,移除关键词后的地名文本内容是“深圳大学”。
S608,对地名文本内容W1进行词合并操作,得到合并文本内容W2,如“深圳大学”。
S609,根据合并文本内容W2构建模糊检索词串W3。模糊检索词串W3由合并文本内容W2按字分词得到,如“深圳大学”。
S610,在索引库内对模糊检索词串W3进行模糊检索,并输出搜索结果。送入索引库进行检索的内容包括模糊检索词串W3整体以及该模糊检索词串W3中的每一个字,例如“深圳大学”及“深”、“圳”、“大”、“学”。
这样处理后得到的要检索的内容中含有的地名数据所占比重更大,利于得到更精确的检索结果。服务器采用模糊检索的方式,提高了地名识别的准确率。
在一个实施例中,步骤S600之后还包括:
S700,显示搜索结果。
如图6所示,步骤S700可包括步骤S701-S703:
S701,预设搜索结果的显示数量;
S702,在得到搜索结果后,按照搜索结果与语音信号的匹配度从高到低筛选得到符合预设数量的搜索显示结果;
S703,显示该搜索显示结果。
上述语音地图搜索方法,在客户端根据置信度判断语音信号能否识别,在无法识别的情况下直接将语音信号和客户端音素网格发送到服务器,在服务器上进行最终识别和模糊检索,步骤简单且容易实现,使客户端能够迅速反应,有利于提升搜索速度。
如图7所示,本发明提供了一种语音地图搜索系统,包括客户端,该客户端包括语音采集模块10、初步识别模块20、置信度判决模块30、客户端输出模块40和传输模块50,其中:
语音采集模块10,用于采集语音信号,具体的,是由客户端软件通过客户端的声卡实时获得音频输入。采集到语音信号之后,语音采集模块10通常会对该语音信号进行一系列处理,例如滤波、预加重、分帧、加窗和特征提取等。
初步识别模块20,用于对所述语音信号进行初步识别,得到初步识别结果。初步识别模块20获取客户端静态解码图HCLGS,利用客户端静态解码图HCLGS识别语音信号得到初步识别文本。初步识别结果包括生成客户端音素网格、根据客户端音素网格解码最佳路径并得到初步识别文本以及该客户端音素网格的解码最佳路径的置信度。
置信度判决模块30,用于判断初步识别结果是否可信。具体的,预先设定一个置信度阙值,当客户端音素网格的解码最佳路径的置信度大于该置信度阙值时,认为初步识别结果可信;当客户端音素网格的解码最佳路径的置信度小于该置信度阙值时,认为初步识别结果不可信。
客户端输出模块40,用于在初步识别结果可信时,输出初步识别结果。
传输模块50,用于在初步识别结果不可信时,将语音信号及客户端音素网格发送至服务器,并接收服务器返回的对语音信号进行最终识别得到的最终识别结果,以及对最终识别结果进行模糊检索得到的搜索结果。
在一个实施例中,本系统还包括服务器。
如图8所示,服务器包括最终识别模块60、检索词处理模块70、服务器检索模块80和服务器输出模块90,其中:
最终识别模块60,用于对接收语音信号和客户端音素网格,并识别语音信号得到文本内容W。具体的,最终识别模块60获取服务器静态解码图HCLG,根据语音信号生成服务器音素网格,根据服务器音素网格对客户端音素网格进行扩展,得到最终音素网格,再利用服务器静态解码图HCLG对最终音素网格进行解码,得到语音输入内容,最后识别语音输入内容,得到文本内容W。
检索词处理模块70,用于对文本内容W进行处理,得到模糊检索词串。
服务器检索模块80,用于对模糊检索词串进行模糊检索。服务器检索模块80调用索引库,用于供服务器检索模块80进行模糊检索。索引库包括多个索引文件,每个索引文件由索引文档构成,索引文档包括地名词条、地名词条长度以及地名一元分词词条。以地名词条“北京大学深圳研究院”为例,该地名词条的长度为9,与该词条对应的一元分词词条为“北京大学深圳研究院”。
服务器输出模块90,用于输出搜索结果。
在一个实施例中,客户端静态解码图HCLGS和服务器静态解码图HCLG通过训练语音识别模型得到。
如图3所示,语音识别模型包括可通用的背景语音模型AM0、可通用的背景语言模型LM1、对背景语言模型LM1剪枝得到的剪枝语言模型LM1S、基于一元语法的语言模型LM2、基于四元语法的语言模型LM3以及基于三元语法的语言模型LM4。
背景语音模型AM0采用高斯混合-隐马尔可夫模型,由大量事先标注好的语音数据训练得到。
背景语言模型LM1由大量平衡的汉语文本语料训练得到,训练的同时生成词表V1,语言模型建模方法采用三元语法。
剪枝语言模型LM1S是以客户端设备能够承载的模型大小为准,对背景语言模型LM1进行剪枝而得到的,其体积远小于背景语言模型LM1。
语言模型LM2基于孤立词形式的地名条目训练得到,其对应孤立词形式的词表V2。
语言模型LM3基于一元分词形式的地名条目训练得到,其对应字形式的词表V3。
语言模型LM4基于按可变词表进行自适应分词的地名条目训练得到,其对应的词表记为V4。可变词表可通过公开途径收集得到。
对背景语言模型LM1、语言模型LM2、语言模型LM3和语言模型LM4进行插值,可得到供服务器使用的背景语言模型LM0。
对剪枝语言模型LM1S、语言模型LM2、语言模型LM3和语言模型LM4进行插值,可得到供客户端使用的剪枝语言模型LM0S。
将词表V1、词表V2、词表V3和词表V4组合在一起,排除LM0和LM0S中未出现的词,可得到词表V0。词表V0对应发音字典L0。
服务器静态解码图HCLG由背景语音模型AM0、背景语言模型LM0和发音字典L0生成。
客户端静态解码图HCLGS由背景语音模型AM0、剪枝语言模型LM0S和发音字典L0生成。
如图9所示,检索词处理模块70包括关键词移除模块71、词合并模块72和模糊检索词串构建模块73,其中:
关键词移除模块71,用于建立关键词列表,并利用关键词列表移除文本内容W中的关键词,得到地名文本内容W1。具体的,首先,根据事先收集整理好的“特定句式关键词列表”,过滤掉文本内容W中可能存在的特定句式关键词,例如“我想去”、“导航到”、“在哪儿”、“在哪里”、“附近有”、“最近的”、“吗”等。这样处理后得到的地名文本内容W1中含有的地名数据所占比重更大,利于地名检索得到更精确的结果。
词合并模块72,用于对地名文本内容W1进行词合并操作,得到合并文本内容W2。具体的,观察地名文本内容W1的词序列,对相邻的两个词进行两两合并,如果合并后的内容在词表V0中,则将其合并为新词,从而得到合并文本内容W2。
模糊检索词串构建模块73,用于根据合并文本内容W2构建模糊检索词串W3,具体的,将合并文本内容W2按字分词得到模糊检索词串W3。
将模糊检索词串W3整体送入服务器检索模块80进行检索,同时将模糊检索词串W3中的每个字也送入服务器检索模块80进行检索,即服务器检索模块80检索的内容包括“深圳大学”及“深”、“圳”、“大”、“学”。。
这样的检索方法效率和准确率较高。
在一个实施例中,客户端还包括显示模块,用于显示搜索结果。显示模块可由用户预设或默认显示数量,在得到所述搜索结果后,按照所述搜索结果与所述语音信号的匹配度从高到低筛选得到符合所述显示数量的搜索显示结果。
本发明提供的语音地图搜索系统,仅利用客户端完成简单的识别任务,将更复杂的识别任务交由服务器处理,降低了对客户端硬件的要求,提升了搜索的速度。此外,在服务器上进行模糊检索,也提高了地名识别的准确率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种语音地图搜索方法,包括以下步骤:
采集语音信号;
对所述语音信号进行初步识别,得到初步识别结果;
判断所述初步识别结果是否可信;
若所述初步识别结果可信,输出所述初步识别结果;
若所述初步识别结果不可信,则将所述语音信号及所述初步识别结果发送至服务器,并接收所述服务器返回的对所述语音信号进行最终识别得到的最终识别结果,以及对所述最终识别结果进行模糊检索得到的搜索结果。
2.根据权利要求1所述的语音地图搜索方法,其特征在于,所述对所述语音信号进行初步识别,得到初步识别结果包括以下步骤:
获取客户端静态解码图;
利用所述客户端静态解码图识别所述语音信号,生成客户端音素网格;
求解所述客户端音素网格的最佳路径,根据最佳路径生成初步识别结果文本;
计算并输出所述客户端音素网格的解码最佳路径的置信度。
3.根据权利要求2所述的语音地图搜索方法,其特征在于,所述最终识别包括以下步骤:
获取服务器静态解码图;
获取所述语音信号及所述客户端音素网格;
根据所述语音信号生成服务器音素网格,然后根据所述服务器音素网格对所述客户端音素网格进行扩展,得到最终音素网格;
利用所述服务器静态解码图对所述最终音素网格进行解码,得到语音输入内容;
识别所述语音输入内容,得到文本内容。
4.根据权利要求3所述的语音地图搜索方法,其特征在于,所述采集语音信号之前,所述方法还包括建立索引库;
所述建立索引库包括以下步骤:
根据地名生成索引文档,所述索引文档包括地名词条、地名词条长度以及地名一元分词词条;
对所有索引文档建立索引并保存为索引文件;
将所有索引文件加入索引库。
5.根据权利要求4所述的语音地图搜索方法,其特征在于,所述对所述最终识别结果进行模糊检索得到的搜索结果包括以下步骤:
获取关键词列表;
根据所述关键词列表移除所述文本内容中的关键词,得到地名文本内容;
对所述地名文本内容进行词合并操作,得到合并文本内容;
根据所述合并文本内容构建模糊检索词串;
在所述索引库内对所述模糊检索词串进行检索,并输出搜索结果。
6.根据权利要求5所述的语音地图搜索方法,其特征在于,所述方法还包括:
预设所述搜索结果的显示数量;
在得到所述搜索结果后,按照所述搜索结果与所述语音信号的匹配度从高到低筛选得到符合所述预设数量的搜索显示结果;
显示所述搜索显示结果。
7.根据权利要求3所述的语音地图搜索方法,其特征在于,所述采集语音信号之前,所述方法还包括训练语音识别模型得到服务器静态解码图和客户端静态解码图;
所述训练语音识别模型得到服务器静态解码图和客户端静态解码图包括以下步骤:
训练背景语音模型和语言模型,所述语言模型包括背景语言模型和对所述背景语言模型剪枝后得到的剪枝语言模型;
利用所述语言模型生成发音字典;
利用所述背景语音模型、所述背景语言模型和所述发音字典生成供所述服务器使用的所述服务器静态解码图;
利用所述背景语音模型、所述剪枝语言模型和所述发音字典生成供所述客户端使用的所述客户端静态解码图。
8.一种语音地图搜索系统,其特征在于,包括客户端,所述客户端包括:
语音采集模块,用于采集语音信号;
初步识别模块,用于对所述语音信号进行初步识别,得到初步识别结果;
置信度判决模块,用于判断所述初步识别结果是否可信;
客户端输出模块,用于在所述初步识别结果可信时,输出所述初步识别结果;
传输模块,用于在所述初步识别结果不可信时,将所述语音信号及所述初步识别结果发送至所述服务器,并接收所述服务器返回的对所述语音信号进行最终识别得到的最终识别结果,以及对所述最终识别结果进行模糊检索得到的搜索结果。
9.根据权利要求8所述的语音地图搜索系统,其特征在于,所述初步识别模块获取客户端静态解码图,利用所述客户端静态解码图识别所述语音信号得到客户端音素网格,并根据所述客户端音素网格生成初步识别文本,以及计算并输出所述客户端音素网格的解码最佳路径的置信度。
10.根据权利要求9所述的语音地图搜索系统,其特征在于,所述系统还包括服务器,所述服务器包括:
最终识别模块,用于对接收所述语音信号和所述客户端音素网格,并识别所述语音信号得到文本内容;
检索词处理模块,用于对所述文本内容进行处理,得到模糊检索词串;
服务器检索模块,用于对所述模糊检索词串进行检索;以及
服务器输出模块,用于输出所述搜索结果。
11.根据权利要求10所述的语音地图搜索系统,其特征在于,所述客户端还包括显示模块,用于预设所述搜索结果的显示数量,并在得到所述搜索结果后,按照所述搜索结果与所述语音信号的匹配度从高到低筛选得到符合所述显示数量的搜索显示结果,最后显示所述搜索显示结果。
12.根据权利要求10所述的语音地图搜索系统,其特征在于,所述最终识别模块获取服务器静态解码图,根据所述语音信号生成服务器音素网格,根据所述服务器音素网格对所述客户端音素网格进行扩展,得到最终音素网格,再利用所述服务器静态解码图对所述最终音素网格进行解码,得到语音输入内容,最后识别所述语音输入内容,得到文本内容。
13.根据权利要求12所述的语音地图搜索系统,其特征在于,所述客户端静态解码图和所述服务器静态解码图通过训练语音识别模型得到。
14.根据权利要求12所述的语音地图搜索系统,其特征在于,所述检索词处理模块包括:
关键词移除模块,用于建立关键词列表,并利用所述关键词列表移除所述文本内容中的关键词,得到地名文本内容;
词合并模块,用于对所述地名文本内容进行词合并操作,得到合并文本内容;以及
模糊检索词串构建模块,用于根据所述合并文本内容构建所述模糊检索词串。
15.根据权利要求14所述的语音地图搜索系统,其特征在于,所述服务器检索模块调用索引库,用于供所述服务器检索模块进行模糊检索,所述索引库包括多个索引文件,每个索引文件由索引文档构成,所述索引文档包括地名词条、地名词条长度以及地名一元分词词条。
16.一种语音地图搜索系统,其特征在于,包括客户端、语音识别服务器和地图搜索服务器,其中:
所述客户端用于采集语音信号并进行初步识别,得到初步识别结果,判断所述初步识别结果是否可信,若所述初步识别结果可信,输出所述初步识别结果,若所述初步识别结果不可信,则将所述语音信号及所述初步识别结果发送至语音识别服务器;
所述语音识别服务器用于接收所述语音信号并进行最终识别,得到最终识别结果;
所述地图搜索服务器用于对所述最终识别结果进行模糊检索得到的搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410185061.XA CN104008132B (zh) | 2014-05-04 | 2014-05-04 | 语音地图搜索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410185061.XA CN104008132B (zh) | 2014-05-04 | 2014-05-04 | 语音地图搜索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008132A true CN104008132A (zh) | 2014-08-27 |
CN104008132B CN104008132B (zh) | 2018-09-25 |
Family
ID=51368789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410185061.XA Active CN104008132B (zh) | 2014-05-04 | 2014-05-04 | 语音地图搜索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008132B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107039050A (zh) * | 2016-02-04 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 对待测试语音识别系统的自动测试方法和装置 |
CN108920666A (zh) * | 2018-07-05 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN109325239A (zh) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | 学生课堂表现管理方法及系统 |
CN110399566A (zh) * | 2018-04-20 | 2019-11-01 | 北京搜狗科技发展有限公司 | 一种位置搜索方法、装置和电子设备 |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111161718A (zh) * | 2018-11-07 | 2020-05-15 | 珠海格力电器股份有限公司 | 语音识别方法、装置、设备、存储介质及空调 |
CN111510671A (zh) * | 2020-03-13 | 2020-08-07 | 海信集团有限公司 | 一种监控视频调取显示的方法及智能终端 |
CN111627445A (zh) * | 2020-05-26 | 2020-09-04 | 福建省海峡智汇科技有限公司 | 一种用于场地或人员的匹配方法和系统 |
CN111862944A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN112639963A (zh) * | 2020-03-19 | 2021-04-09 | 深圳市大疆创新科技有限公司 | 音频采集装置、音频接收装置及音频处理方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1349212A (zh) * | 2000-10-18 | 2002-05-15 | 摩托罗拉公司 | 基于网络的语音识别方法 |
CN1858741A (zh) * | 2006-03-24 | 2006-11-08 | 华为技术有限公司 | 基于ip多媒体子系统的信息搜索方法 |
US20080022211A1 (en) * | 2006-07-24 | 2008-01-24 | Chacha Search, Inc. | Method, system, and computer readable storage for podcasting and video training in an information search system |
CN101681365A (zh) * | 2007-04-10 | 2010-03-24 | 摩托罗拉公司 | 用于分布式语音搜索的方法和装置 |
CN102136001A (zh) * | 2011-03-25 | 2011-07-27 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息模糊检索方法 |
CN102142253A (zh) * | 2010-01-29 | 2011-08-03 | 富士通株式会社 | 语音情感识别设备及方法 |
CN103295575A (zh) * | 2012-02-27 | 2013-09-11 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
CN103514882A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种语音识别方法及系统 |
-
2014
- 2014-05-04 CN CN201410185061.XA patent/CN104008132B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1349212A (zh) * | 2000-10-18 | 2002-05-15 | 摩托罗拉公司 | 基于网络的语音识别方法 |
CN1858741A (zh) * | 2006-03-24 | 2006-11-08 | 华为技术有限公司 | 基于ip多媒体子系统的信息搜索方法 |
US20080022211A1 (en) * | 2006-07-24 | 2008-01-24 | Chacha Search, Inc. | Method, system, and computer readable storage for podcasting and video training in an information search system |
CN101681365A (zh) * | 2007-04-10 | 2010-03-24 | 摩托罗拉公司 | 用于分布式语音搜索的方法和装置 |
CN102142253A (zh) * | 2010-01-29 | 2011-08-03 | 富士通株式会社 | 语音情感识别设备及方法 |
CN102136001A (zh) * | 2011-03-25 | 2011-07-27 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息模糊检索方法 |
CN103295575A (zh) * | 2012-02-27 | 2013-09-11 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
CN103514882A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种语音识别方法及系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US11664020B2 (en) | 2015-11-06 | 2023-05-30 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
CN107039050B (zh) * | 2016-02-04 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 对待测试语音识别系统的自动测试方法和装置 |
CN107039050A (zh) * | 2016-02-04 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 对待测试语音识别系统的自动测试方法和装置 |
CN110399566A (zh) * | 2018-04-20 | 2019-11-01 | 北京搜狗科技发展有限公司 | 一种位置搜索方法、装置和电子设备 |
CN110399566B (zh) * | 2018-04-20 | 2024-06-07 | 北京搜狗科技发展有限公司 | 一种位置搜索方法、装置和电子设备 |
CN108920666A (zh) * | 2018-07-05 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN108920666B (zh) * | 2018-07-05 | 2021-02-26 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN109325239A (zh) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | 学生课堂表现管理方法及系统 |
CN111161718A (zh) * | 2018-11-07 | 2020-05-15 | 珠海格力电器股份有限公司 | 语音识别方法、装置、设备、存储介质及空调 |
CN111862944A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN111862944B (zh) * | 2019-04-30 | 2024-04-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111510671A (zh) * | 2020-03-13 | 2020-08-07 | 海信集团有限公司 | 一种监控视频调取显示的方法及智能终端 |
CN112639963A (zh) * | 2020-03-19 | 2021-04-09 | 深圳市大疆创新科技有限公司 | 音频采集装置、音频接收装置及音频处理方法 |
WO2021184315A1 (zh) * | 2020-03-19 | 2021-09-23 | 深圳市大疆创新科技有限公司 | 音频采集装置、音频接收装置及音频处理方法 |
CN111627445B (zh) * | 2020-05-26 | 2023-07-07 | 福建省海峡智汇科技有限公司 | 一种用于场地或人员的匹配方法和系统 |
CN111627445A (zh) * | 2020-05-26 | 2020-09-04 | 福建省海峡智汇科技有限公司 | 一种用于场地或人员的匹配方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104008132B (zh) | 2018-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008132A (zh) | 语音地图搜索方法及系统 | |
US10410627B2 (en) | Automatic language model update | |
WO2022057712A1 (zh) | 电子设备及其语义解析方法、介质和人机对话系统 | |
CN110827805B (zh) | 语音识别模型训练方法、语音识别方法和装置 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
US9047868B1 (en) | Language model data collection | |
CN103559879B (zh) | 语种识别系统中声学特征提取方法及装置 | |
CN109801635A (zh) | 一种基于注意力机制的声纹特征提取方法及装置 | |
CN103794211B (zh) | 一种语音识别方法及系统 | |
CN102236639A (zh) | 更新语言模型的系统和方法 | |
WO2023272616A1 (zh) | 一种文本理解方法、系统、终端设备和存储介质 | |
CN112259089A (zh) | 语音识别方法及装置 | |
CN105893389A (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN103871402A (zh) | 语言模型训练系统、语音识别系统及相应方法 | |
CN114495905A (zh) | 语音识别方法、装置及存储介质 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN105630869B (zh) | 一种语音数据的存储方法和装置 | |
KR102342571B1 (ko) | 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치 | |
Zhang et al. | Research on spectrum sensing system based on composite neural network | |
CN103247316A (zh) | 一种音频检索中构建索引的方法及系统 | |
CN110705275B (zh) | 主题词提取方法、装置、存储介质及电子设备 | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN112634863B (zh) | 一种语音合成模型的训练方法、装置、电子设备及介质 | |
CN118013390B (zh) | 一种基于大数据分析的智慧工作台控制方法及系统 | |
JP6374771B2 (ja) | ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518057 room W406, four / F, west seat, Shenzhen Hong Kong industry university research base, Nanshan District high tech Zone, Shenzhen, Guangdong Applicant after: Shenzhen Beike risound Polytron Technologies Inc Address before: 518057 room W406, four / F, west seat, Shenzhen Hong Kong industry university research base, Nanshan District high tech Zone, Shenzhen, Guangdong Applicant before: Shenzhen Beike Ruisheng Technology Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |