CN109933774A - 语义识别方法、装置存储介质和电子装置 - Google Patents
语义识别方法、装置存储介质和电子装置 Download PDFInfo
- Publication number
- CN109933774A CN109933774A CN201711353756.4A CN201711353756A CN109933774A CN 109933774 A CN109933774 A CN 109933774A CN 201711353756 A CN201711353756 A CN 201711353756A CN 109933774 A CN109933774 A CN 109933774A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- database
- markup information
- division result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 36
- 230000015654 memory Effects 0.000 claims description 33
- 230000004048 modification Effects 0.000 claims description 14
- 238000012986 modification Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims 2
- 230000032258 transport Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 14
- 230000011218 segmentation Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 18
- 238000005520 cutting process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008676 import Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种语义识别方法、装置存储介质和电子装置。其中,该方法包括:获取对目标语音进行识别得到的目标文本;在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;根据目标标注信息确定分词的目标语义;按照分词的目标语义,确定目标文本的语义。本发明解决了相关技术中存在语义识别效率低的技术问题。
Description
技术领域
本发明涉及语义识别领域,具体而言,涉及一种语义识别方法、装置存储介质和电子装置。
背景技术
目前,在语义识别中,通常为基于全领域的数据词典所进行的最大匹配策略,以对语句进行分词。比如,传统基于词典自然语言处理(Natural Language Processing,简称为NLP)算法依赖于大规模的词语词典,一旦缺少匹配词语数据就会导致分词产生歧义。另外,该全领域的数据词典不完全包含车载领域中需要的词典数据。
上述基于全量的词库,会导致内存占用大;但轻量定制版本的领域词语又覆盖不全;另外,词性标志较为基础,不带有车载领域的命名实体标注,并且无法自定义进行词性标注。
图1是根据相关技术中的一种语义识别的示意图。如图1所示,会话开始到记录语音过程中的异常占比为8.8%,其中,包括语音启动中异常占比E1:1%,手动关闭异常占比E2:7.8;记录语音到将记录的语音识别为文本的过程中的异常占比为6.3%,其中,包括未正确识别出的文字的占比E3:6.3%;将记录的语音识别为文本到识别文本语义过程中的异常占比E4:22.6%,其中,包括未正确识别语义的占比E4:22.6%;识别文本语义到意图执行过程中的异常占比为6.4%,其中,执行识别的占比E5:2.3%,执行超时的占比E6:1.4,执行过程中关闭的占比E7:1.8%,多轮交互错误的占比E8:0.9%。因而,语义识别的失败率为44.1%,语义识别的总成功率为55.9%。
由上述可知,通过语音后台统计出来语音识别在各个环节的失败率,其中在识别文本语义环节存在高达22.6%的失败率,因而存在语义识别效率低的问题。
图2是根据相关技术中的一种语音语义平台识别的示意图。如图2所示,语音语义平台识别出现指令缺失、意图错误、内容缺失、功能更新的问题。
针对上述的语义识别效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语义识别方法、装置存储介质和电子装置,以至少解决相关技术中存在语义识别效率低的技术问题。
根据本发明实施例的一个方面,提供了一种语义识别方法。该方法包括:获取对目标语音进行识别得到的目标文本;在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;根据目标标注信息确定分词的目标语义;按照分词的目标语义,确定目标文本的语义。
根据本发明实施例的另一方面,还提供了一种语义识别装置。该装置包括:获取单元,用于获取对目标语音进行识别得到的目标文本;查找单元,用于在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;第一确定单元,用于在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;第二确定单元,用于根据目标标注信息确定分词的目标语义;第三确定单元,用于按照分词的目标语义,确定目标文本的语义。
在本发明实施例中,获取对目标语音进行识别得到的目标文本;在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;根据目标标注信息确定分词的目标语义;按照分词的目标语义,确定目标文本的语义。由于目标文本的分词带有用于标注分词所属领域的标注信息,确定目标文本的语义,进而达到了保证目标文本语义的正确识别的目的,克服了相关技术中基于全量的词库,会导致内存占用大、轻量定制版本的领域词语又覆盖不全的难题,从而达到了提高语义识别的效率的技术效果,进而解决了相关技术中存在语义识别效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术中的一种语义识别的示意图;
图2是根据相关技术中的一种语音语义平台识别的示意图;
图3是根据本发明实施例的一种语义识别方法的硬件环境的示意图;
图4是根据本发明实施例的一种语义识别方法的流程图;
图5是根据本发明实施例的一种语义交互的示意图;
图6是根据本发明实施例的一种语义识别系统的示意图;
图7是根据本发明实施例的一种领域词库模型的示意图;
图8是根据本发明实施例的一种词典树的示意图;
图9是根据本发明实施例的另一种语义识别的方法的流程图;
图10是根据本发明实施例的一种语义识别装置的示意图;以及
图11是根据本发明实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种语义识别方法的实施例。
可选地,在本实施例中,上述语义识别方法可以应用于如图3所示的由服务器302和终端304所构成的硬件环境中。图3是根据本发明实施例的一种语义识别方法的硬件环境的示意图。如图3所示,服务器302通过网络与终端304进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端304并不限定于PC、手机、平板电脑等。本发明实施例的语义识别方法可以由服务器302来执行,也可以由终端304来执行,还可以是由服务器302和终端304共同执行。其中,终端304执行本发明实施例的语义识别方法也可以是由安装在其上的客户端来执行。
可选地,在本发明实施例的语义识别方法由终端304来执行时,包括步骤S31至步骤S33:
步骤S31,确定对目标语音进行识别得到的目标文本的语义。
用户向终端304发出目标语音,终端304对获取到的目标语音进行识别,得到目标文本,确定目标文本的语义。
具体的确定对目标语音进行识别得到的目标文本的语义的处理过程如下:
步骤S311,获取对目标语音进行识别得到的目标文本。
步骤S312,在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域。
步骤S313,在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词。
步骤S314,根据目标标注信息确定每个分词的目标语义。
步骤S315,按照分词的目标语义,确定目标文本的语义。
步骤S32,上报包括目标文本的语义的信息。
在确定对目标语音进行识别得到的目标文本的语义之后,向服务器302上报包括目标文本的语义的信息,比如,上报用于指示目标文本的语义的数据和至少一个分词。
步骤S33,更新第一数据库。
通过上报的包括目标文本的语义的信息优化服务器302中的数据库,进而通过接收服务器302中的数据库中的数据来更新本地的第一数据库,进而形成反馈—优化的闭环执行过程。
上述步骤S31至步骤S33为包括本申请技术方案的一个完整实施流程,本申请的技术方案主要涉及其中的步骤S31,下面结合具体的实施例详述步骤S31的技术方案。
图4是根据本发明实施例的一种语义识别方法的流程图。如图4所示,步骤S402与步骤S311对应,步骤S404与步骤S312对应,步骤S406与步骤S313对应,步骤S408与步骤S314对应,步骤S410与步骤S315对应,该方法可以包括以下步骤:
步骤S402,获取对目标语音进行识别得到的目标文本。
在本申请上述步骤S402提供的技术方案中,目标语音为通过语音输入设备输入的语音,比如,通过麦克风设备输入目标语音“导航到深圳大学”。在获取到目标语音之后,对目标语音进行识别,得到与目标语音对应的目标文本,对该目标文本进行语义理解,也即,对目标文本进行语义识别,这是对目标语音进行识别得到目标文本之后的关键环节。
步骤S404,在第一数据库中,查找目标文本的词语中的目标词语。
在本申请上述步骤S404提供的技术方案中,在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域。
该实施例的第一数据库可以用于存储大量的多个领域中的数据,比如,用于存储运营挖掘领域、音乐领域、地图领域、通讯领域中的数据,还可以存储与车载语音交互相关的其它领域数据,此处不做任何限制。该第一数据库可以作为领域词库模型,存储的数据包括具有标注信息的词语,该标注信息用于指示具有标注信息的词语所属的领域。可选地,具有标注信息的词语在导入第一数据库时就已经具有标注信息,
可选地,该实施例的第一数据库中的数据可以与云端词库中的数据保持同步。可以在后台实时编辑,在云端词库中的数据更新之后,将最新的数据更新到第一数据库中,比如,当地图数据、听数据自动更新之后,将最新的地图数据、听数据更新到第一数据库中,从而保证了第一数据库中的数据进行匹配的正确性。
该实施例的目标文本可以由多个词语组成。在获取对目标语音进行识别得到的目标文本之后,获取目标文本的至少一个词语,可以对目标文本进行切分,得到至少一个词语,可选地,通过基于词典对目标文本进行切分,得到至少一个词语,比如,对目标文本“播放心太软”进行切分,得到“播放”、“心太软”两个词语。在第一数据库中,查找目标文本的词语中的目标词语,也即,从目标文本的词语中选择出目标词语,在第一数据库中查找目标词语,比如,将“心太软”确定为目标文本的目标词语,在第一数据库中,查找“心太软”。
步骤S406,在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词。
在本申请上述步骤S406提供的技术方案中,第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词。
该实施例的第一数据库用于存储具有标注信息的词语,如果在第一数据库中查找到目标词语,则查找到的目标词语具有目标标注信息,该目标标注信息用于指示目标词语所属的领域,将具有目标标注信息的目标词语确定为目标文本的分词,从而实现对目标文本的分词处理。
通过该实施例的对目标文本进行分词处理,可以识别出完整的命名实体,比如,第一数据库为用于存储地图领域的数据的数据库,在第一数据库中,对目标文本“导航到深圳大学”进行分词处理。在第一数据库中查找到“深圳大学”,而不是“深圳”和“大学”,而深圳大学带有地理位置的标注信息,比如,地理位置的标注信息为NP,可以完整地表明“深圳大学”的实体内容。
可选地,在第一数据库中,对目标文本中的词语的目标词语“南山南”进行查找,得到带有标注信息的目标词语“南山南/NM”,则将“南山南/NM”确定为目标本的分词。词语“南山南”的标注信息“NM”可以用于标注其所属的领域为音乐领域,则可以进一步确定“南山南”是音乐领域中的歌曲“南山南”,而不是地理领域中的地址“南山南”。
可选地,该实施例的目标文本的分词还可以带有词性标注,比如,带有名词n、动词v等词性标注。
可选地,该实施例在第一数据库中查找目标词语时,通过Tire树-高效存储检索结构对目标词语进行查找,从而大幅提高对目标词语的查询效率。最后再引入双数组Tire树结构来进一步优化普通Tire树的内存占用空间。其中,Tire树是一种树形结构,因其是词典的一种存储方式,故又叫字典树。词典中的每一个单词在Tire树中表现为一条从根结点出发的路径,路径边上的点连起来就是一颗Tire树;双数组Trie(Double-ArrayTrie)是Trie树的一个简单而有效的实现,由两个整数数组构成,为每个分词在双数组字典树中进行查询的标志。
步骤S408,根据目标标注信息确定分词的目标语义。
在本申请上述步骤S408提供的技术方案中,在将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词之后,根据目标标注信息确定分词的目标语义。
该实施例的目标标注信息用于指示目标词语所属的领域,可以根据目标标注信息确定分词的目标语义,比如,目标词语为“南山南”,该南山南有两种含义,一种是歌曲“南山南”,另一种是地理位置“南山南”。当目标词语的目标标注信息为“NM”时,可以根据该“NM”确定“南山南”属于音乐领域中的词语,则分词“南山南/NM”的目标语义为歌曲“南山南”;当目标词语的目标标注信息为“NP”时,可以根据该“NP”确定“南山南”属于地理领域中的词语,则分词“南山南/NP”的目标语义为地理位置“南山南”。
步骤S410,按照分词的目标语义,确定目标文本的语义。
在本申请上述步骤S410提供的技术方案中,在根据目标标注信息确定目标文本的分词的目标语义之后,按照目标文本的分词的目标语义,确定目标文本的语义,进而执行目标文本的语义所指示的命令。比如,按照“导航”、“到”、“深圳大学”的目标语义,确定目标文本“导航到深圳大学”的语义为导航到深圳大学,进而执行导航命令,实现导航意图。
通过上述步骤S402至步骤S410,获取对目标语音进行识别得到的目标文本;在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;根据目标标注信息确定分词的目标语义;按照分词的目标语义,确定目标文本的语义。由于目标文本的分词带有用于标注分词所属领域的标注信息,确定目标文本的语义,达到了保证目标文本语义的正确识别的目的,达到了提高语义识别的效率的技术效果,进而解决了相关技术中存在语义识别效率低的技术问题。
作为一种可选的实施方式,步骤S404,在第一数据库中,查找目标文本的词语中的目标词语包括:从目标文本的词语中选择至少一个词语,并将至少一个词语确定为目标词语;在第一数据库中查找目标词语。
在该实施例中,目标文本的词语包括多个词语,比如,目标文本为“播放心太软”,则“需要播放心太软”可以包括多个词语,比如,包括“需要”、“播放”、“心太软”三个词语。从目标文本的词语中选择至少一个词语,可以选择目标文本中的所有词语,也可以选择目标文本的多个词语中的一个词语,也可以选择目标文本的词语中的两个以上的词语,比如,目标文本“需要播放心太软”中的词语“需要”、“播放”、“心太软”三个词语,由于“需要”、“播放”为动词,语义是明确的,因而可以从“需要”、“播放”、“心太软”只选择出“心太软”这一个词。将从目标文本中选择出的至少一个词语确定为目标文本的目标词语,比如,将词语“心太软”确定为目标文本“需要播放心太软”的目标词语。在从目标文本的词语中选择至少一个词语,并将至少一个词语确定为目标词语之后,在第一数据库中查找目标词语,比如,第一数据库包括音乐领域中的数据,在第一数据库中查找“心太软”,如果在第一数据库中查找到“心太软”,则将带有标注信息的“心太软/NM”作为目标文本“需要播放心太软”的分词。
作为一种可选的实施方式,在第一数据库中,查找目标文本的词语中的目标词语之前,该方法还包括:从服务器中获取多个领域中的具有标注信息的词语,其中,具有标注信息的词语在服务器上标注上述标注信息;将具有标注信息的词语导入第一数据库中。
在该实施例中,第一数据库可以用于存储多个领域中的具有标注信息的词语,服务器可以获取多个领域中的词语,并对多个领域中的词语进行标注,使每个领域中的词语都具有标注信息。可选地,多个领域可以为运营挖掘领域、音乐领域、地图领域、通讯领域、学校领域等,此处不做任何限制,多个领域中的词语在服务器上自动标注上标注信息,比如,服务器向每个词语的目标位置添加标注信息,可以向每个词语的前面位置或者后面位置添加标注信息,比如,向词语“南山南”的后面添加标注信息“NM”,得到“南山南/NM”,从而实现了对词语的自动标注。
在从服务器中获取多个领域中的具有标注信息的词语之后,将具有标注信息的词语导入第一数据库中,比如,向第一数据库导入运营挖掘领域中的带有标注信息的词语、导入地图领域中的带有标注信息的词语、导入音乐领域中的带有标注信息的听内容的词语,以及导入通讯领域中的带有本地通讯录的词语,除此之外,还可以导入与车载语音交互相关的其它领域中的词语等,此处不做任何限制。
作为一种可选的实施方式,步骤S404,在第一数据库中,查找目标文本的词语中的目标词语包括:在具有字典树结构的第一数据库中,查找目标文本的词语中的目标词语,其中,多个领域中的具有标注信息的词语分布在字典树结构的多条路径中。
在该实施例中,字典树是一种树形结构,是词典的一种存储方式。词典中的每一个单词在字典树中表现为一条从根结点出发的路径,路径边上的点连起来就是一颗字典树。在具有字典树结构的第一数据库中,查找目标文本的词语中的目标词语,字典树中的词语在字典树中具有公共前缀,公共前缀存储在共享的存储空间中,也即,词典数据的公共前缀可以共享空间,海量词典数据检索效率与词典条数无关,这样比建立哈希(Hash)表,从左往后拼接词语再去哈希表中进行查找的方案更节省空间。该实施例的多个领域中的具有标注信息的词语分布在字典树结构的多条路径中,从而可以在字典树的路径中查找分词。
可选地,实施例的字典树包括双数组字典树,双数组字典树可以在一定程度上减少内存的浪费。双数组字典树包括两个整形数组,比如,一个为数组base[],可以用于表示后继节点的基地址的数组,它的值为状态转移的基值,另一个为check[],用于标识前驱节点的地址,相当于校验值,用于检查该状态是否存在,该状态对应一个词语。设数组下标为i,每个词语可以通过双数组的下标表示。双数组为每个词语在双数组字典树中进行查询的标志,如果base[i]、check[i]均为0,则表示该位置为空,如果base[i]为负值,表示该状态为终止态(即词语),check[i]表示该状态的前一状态。在具有双数组字典树结构的第一数据库中,查找目标文本的词语中的目标词语,每个词语在双数组字典树中的查询时间与每个词语的长度相关,比如,当词语的长度越短时,查询时间越短,当词语的长度越长时,查询时间越长。
该实施例的双数组字典树可以构建为一种动态检索方法,从而解决插入和删除所存在的问题。比如,在插入新的基值时,只需要遍历空状态的。可以对所有的空状态构建一个序列,在确定基值时只需要扫描该序列即可。对于删除叶结点时产生的无用结点,可以将它们置为空,使得在插入新词时得以重用,在删除了一个状态后,数组末尾可能出现的连续空状态也是可以直接删除的,从而进一步优化内存占用空间。
作为一种可选的实施方式,在第一数据库中,查找目标文本的词语中的目标词语之前,该方法还包括:从服务器中获取多个领域中更新后的具有标注信息的词语;向第一数据库中添加更新后的具有标注信息的词语,得到更新后的第一数据库;在第一数据库中,查找目标文本的词语中的目标词语包括:在更新后的第一数据库中,查找目标文本的词语中的目标词语。
在该实施例中,不同领域中的数据会更新。为了保证语义识别的准确性,第一数据库中存储的带有标注信息的词语也需要不断更新。从服务器中获取多个领域中更新后的具有标注信息的词语,该第一数据库中的词语可以与云端词库中的词语同步,该云端词库存储了多个领域中的词语,可以通过词库同步模块实现第一数据库中存储的词语与云端词库中的数据同步。在从服务器中获取多个领域中更新后的具有标注信息的词语之后,向第一数据库中添加更新后的具有标注信息的词语,得到更新后的第一数据库,比如,在产品运营后台的地图数据、听数据自动更新之后,向第一数据库中添加更新后的数据,从而得到更新后的第一数据库,进而在更新后的第一数据库中,查找目标文本的词语中的目标词语,保证后续第一数据库中的词语可以与目标文本中的词语正确匹配,提高了语义识别的准确性。
可选地,在该实施例中,标注信息用于标注词语所属的领域,标注信息也可以更新。在向第一数据库中添加更新后的数据,得到更新后的第一数据库时,可以获取更新后的标注信息。可选地,标注信息开始用于指示词语所属的第一领域,而当前更新为用于指示词语所属的第二领域。比如,第一领域可以流行音乐领域,第二领域可以为爵士音乐领域,标注信息开始用于指示词语所属的流行音乐领域,而当前更新为用于指示词语所属的爵士音乐领域。在获取更新后的标注信息之后,向第一数据库中添加更新后的标注信息,从而得到更新后的第一数据库,保证后续第一数据库中的词语可以与目标文本中的词语正确匹配,提高了语义识别的准确性。
作为一种可选的实施方式,从服务器中获取多个领域中更新后的具有标注信息的词语包括:从服务器中获取多个领域中新增的具有标注信息的词语,其中,第一数据库中未存储新增的具有标注信息的词语,更新后的具有标注信息的词语包括新增的具有标注信息的词语;向第一数据库中添加更新后的具有标注信息的词语,得到更新后的第一数据库包括:向第一数据库中添加新增的具有标注信息的词语,得到更新后的第一数据库。
在该实施例中,不同领域中的数据会更新,更新的数据可以为不同领域中新增的数据。在从服务器中获取多个领域中更新后的具有标注信息的词语时,从服务器中获取多个领域中新增的具有标注信息的词语,而该新增的具有标注信息的词语是第一数据库中从未存储过的,比如,该新增的词语为所属领域中新出现的一个热度较高的流行词语,在服务器上对新增的词语标注上述标注信息。在从服务器中获取多个领域中新增的具有标注信息的词语之后,向第一数据库中添加新增的具有标注信息的词语,得到更新后的第一数据库,比如,向第一数据库中添加新增的具有标注信息的流行词语,从而得到更新后的第一数据库,从而使得第一数据库中的内容可以适应多个领域中词语的更新,保证后续第一数据库中的词语可以与目标文本中的词语正确匹配,提高了语义识别的准确性。
作为一种可选的实施方式,从服务器中获取多个领域中更新后的具有标注信息的词语包括:从服务器中获取多个领域中修改后的具有标注信息的词语,其中,第一数据库中存储有与修改后的具有标注信息的词语对应的修改前的具有标注信息的词语,更新后的具有标注信息的词语包括修改后的具有标注信息的词语;向第一数据库中添加更新后的具有标注信息的词语,得到更新后的第一数据库包括:将第一数据库中存储的修改前的具有标注信息的词语,替换为修改后的具有标注信息的词语,得到更新后的第一数据库。
在该实施例中,不同领域中的数据会更新,更新的数据可以为不同领域中对原有数据进行修改的数据。在从服务器中获取多个领域中更新后的具有标注信息的词语时,从服务器中获取多个领域中修改后的具有标注信息的词语,而第一数据库中存储有与修改后的具有标注信息的词语对应的修改前的具有标注信息的词语,比如,修改后的具有标注信息的词语为“南山南/NM”,而修改前的具有标注信息的词语为“南山南/NP”。在从服务器中获取多个领域中新增的具有标注信息的词语之后,将第一数据库中存储的修改前的具有标注信息的词语,替换为修改后的具有标注信息的词语,得到更新后的第一数据库,比如,将第一数据库中存储的修改前的具有标注信息的词语“南山南/NP”,替换为修改后的具有标注信息的词语“南山南/NM”,从而得到更新后的第一数据库,从而使得第一数据库中的内容可以适应多个领域中词语的更新,保证后续第一数据库中的词语可以与目标文本中的词语正确匹配,提高了语义识别的准确性。
作为一种可选的实施方式,步骤S404,在第一数据库中,查找目标文本的词语中的目标词语包括:获取对目标文本进行划分得到的多种划分结果,其中,每种划分结果由目标文本的词语组成;在多种划分结果中确定满足目标规则的目标划分结果;在第一数据库中,查找目标划分结果的词语中的目标词语。
在该实施例中,对目标文本进行划分,得到多种划分结果,可以通过决策模型对目标文本进行划分。向该决策模型导入目标规则,该目标规则为对目标文本进行划分的规则。获取对目标文本进行划分得到的多种划分结果,比如,目标文本为“播放心太软”,可以基于词典切分“播放心太软”相邻的三个词,得到多种划分结果“播放_心_太软”、“播放_心_太”、“播_放心_太软”、“播_放心_太”、“播_放_心”,每种划分结果由目标文本的词语组成。在获取对目标文本进行分词处理得到的多种划分结果之后,从多种划分结果中确定满足目标规则的目标划分结果,比如,从多种划分结果中确定长度最大、平均长度最大、词变化最小、单自由语素度最高的划分结果,将符合该目标规则的划分结果确定为目标划分结果,进而获取该目标划分结果中的至少一个分词,在第一数据库中确定每个分词的标注信息,根据标注信息确定每个分词在目标领域中的目标语义,最后按照每个分词的目标语义,确定目标文本的语义,从而达到了提高语义识别的效率的技术效果。
作为一种可选的实施方式,在多种划分结果中确定满足目标规则的目标划分结果包括:在多种划分结果中,获取每种划分结果中的所有词语的长度之和、并确定所有词语的长度之和最大的第一划分结果,其中,第一划分结果的数量为第一数量;在第一数量为1的情况下,将第一划分结果确定为满足目标规则的目标划分结果;在第一数量不为1的情况下,在第一数量的第一划分结果中,获取每种第一划分结果中的所有词语的平均长度、并确定所有词语的平均长度最大的第二划分结果,其中,第二划分结果的数量为第二数量,第二数量小于等于第一数量;在第二数量为1的情况下,将第二划分结果确定为满足目标规则的目标划分结果;在第二数量不为1的情况下,在第二数量的第二划分结果中,获取每种第二划分结果中的所有词语的词长变化幅度、并确定所有词语的词长变化幅度最小的第三划分结果,其中,第三划分结果的数量为第三数量,第三数量小于等于第二数量;在第三数量为1的情况下,将第三划分结果确定为满足目标规则的目标划分结果;在第三数量不为1的情况下,在第三数量的第三划分结果中,获取每种第三划分结果中的所有词语的自由语素度、并确定所有词语的自由语素度最高的第四划分结果,其中,第四划分结果的数量为第四数量,第四数量小于等于第三数量,自由语素度用于指示词语与语素构成新的词语的概率;在第四数量为1的情况下,将第四划分结果确定为满足目标规则的目标划分结果。
在该实施例中,在从多种划分结果中确定满足目标规则的目标划分结果时,在多种划分结果中,获取每种划分结果中的所有词语的长度之和、并确定所有词语的长度之和最大的第一划分结果,第一划分结果的数量为第一数量;在第一数量为1的情况下,将第一划分结果确定为满足目标规则的目标划分结果。
举例而言,在多种划分结果中,获取每种划分结果中的所有词语的长度之和,比如,多种划分结果为“播放_心_太软”、“播放_心_太”、“播_放心_太软”、“播_放心_太”、“播_放_心”,其中,“播放_心_太软”有3个词语“播放”、“心”、“太软”,这3个词语的长度总和为5,“播放_心_太”有3个词语“播放”、“心”、“太”,这3个词语的长度总和为4,“播_放心_太软”有3个词语“播”、“放心”、“太软”,这3个词语的长度总和为5,“播_放心_太”有3个词语“播”、“放心”、“太”,这3个词语的长度总和为4,“播_放_心”有3个词语“播”、“放”、“心”,这3个分词的长度总和为3。确定所有词语的长度之和最大的第一划分结果,由于划分结果“播放_心_太软”和“播_放心_太软”的长度均为5,因而上述第一划分结果为“播放_心_太软”和“播_放心_太软”,该第一划分结果的第一数量为2,不为1,还不能确定出目标划分结果。
在第一数量不为1的情况下,在第一数量的第一划分结果中,获取每种第一划分结果中的所有词语的平均长度、并确定所有词语的平均长度最大的第二划分结果,其中,第二划分结果的数量为第二数量,第二数量小于等于第一数量;在第二数量为1的情况下,将第二划分结果确定为满足目标规则的目标划分结果。
举例而言,在第一数量的第一划分结果中,获取每种第一划分结果中的所有分词的平均长度,比如,“播放_心_太软”有3个分词,每个分词的平均长度为1.667(5/3=1.667),“播_放心_太软”有3个分词,每个分词的平均长度为1.667(5/3=1.667),“播放_心_太软”和“播_放心_太软”的平均长度均为1.667,因而,“播放_心_太软”和“播_放心_太软”均为第二划分结果,第二数量为2,不为1,还不能确定出目标划分结果。
在第二数量不为1的情况下,在第二数量的第二划分结果中,获取每种第二划分结果中的所有词语的词长变化幅度、并确定所有词语的词长变化幅度最小的第三划分结果,其中,第三划分结果的数量为第三数量,第三数量小于等于第二数量;在第三数量为1的情况下,将第三划分结果确定为满足目标规则的目标划分结果。
举例而言,在第二数量的第二划分结果中,获取每种第二划分结果中的所有分词的词长变化幅度,该词长变化幅度为分词的词长的标准差。对于第二划分结果“播放_心_太软”,有3个分词“播放”、“心”、“太软”,词长变化幅度为对于第二划分结果“播_放心_太软”,有3个分词“播”、“放心”、“太软”,词长变化幅度为由于第二划分结果“播放_心_太软”和“播_放心_太软”的词长变化幅度均为0.577,所有分词的词长变化幅度最小的第三划分结果为“播放_心_太软”和“播_放心_太软”,第三划分结果的第三数量为2,不为1,还不能确定出目标划分结果。
在第三数量不为1的情况下,在第三数量的第三划分结果中,获取每种第三划分结果中的所有词语的自由语素度、并确定所有词语的自由语素度最高的第四划分结果,其中,第四划分结果的数量为第四数量,第四数量小于等于第三数量,自由语素度用于指示词语与语素构成新的词语的概率;在第四数量为1的情况下,将第四划分结果确定为满足目标规则的目标划分结果。
举例而言,在第三数量的第三划分结果中,获取每种第三划分结果中的所有分词的自由语素度,比如,分别获取第三划分结果为“播放_心_太软”和“播_放心_太软”的自由语素度,自由语素为能够独立成词,也能够同别的语素组合成词语的语素,自由语素度用于指示分词构成词语的概率,可以用自然对数进行表示。其中,第三划分结果为“播放_心_太软”的长度为5、平均长度为1.667,词长变化幅度为0.577,其自然对数计算结果为13.0072,第三划分结果为“播_放心_太软”的长度为5、平均长度为1.667,词长变化幅度为0.577,其自然对数计算结果为10.1699。因而第三划分结果为“播放_心_太软”的单字自由语素度最高,为第四划分结果,数量为1,则将该第四划分结果“播放_心_太软”确定为满足目标规则的目标划分结果,进而获取目标划分结果中的至少一个分词,确定每个分词的目标语义数据,最后按照每个分词的目标语义,确定目标文本的语义,从而达到了提高语义识别的效率的技术效果。
可选地,如果第四数量不为1,可以从第四数量的第四划分结果中随机选择一种划分结果作为目标划分结果,进而在第一数据库中,查找目标划分结果的词语中的目标词语,在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,根据目标标注信息确定分词的目标语义,按照分词的目标语义,确定目标文本的语义。如果目标文本的语义不准确,用户可以反馈此次对目标文本的语义进行识别的结果的意见,以及认为的正确的语义。获取用户反馈的数据,并向服务器上报,产品和运营人员可以根据线上反馈的数据对终端做出的划分结果进行限制,从而降低下次选择上述随机选择出的一种划分结果作为目标划分结果的概率。
可选地,如果第四数量不为1,可以将第四数量的第四划分结果都先保留,然后去第一数据库中查找各个第四划分结果中的词语,一旦在第一数据库中首先查找出哪个第四划分结果中的词语,并最先确定出目标文本的语义,就舍弃掉其它的第四划分结果,也即,停止在第一数据库中查找其它的第四划分结果中的数据。
作为一种可选的实施方式,在按照分词的目标语义,确定目标文本的语义之后,该方法还包括:向服务器上报用于指示目标文本的语义的数据,其中,用于指示目标文本的语义的数据用于更新服务器上的第二数据库,第二数据库用于存储多个领域中的词语;通过第二数据库更新第一数据库。
在该实施例中,在按照分词的目标语义,确定目标文本的语义之后,可以向服务器上报用于指示目标文本的语义的数据和目标文本的至少一个分词,服务器上具有第二数据库,该第二数据库也即云端词库,用于存储目标领域中的语义数据,通过用于指示目标文本的语义的数据和至少一个分词更新第二数据库,进而通过第二数据库将用于指示目标文本的语义的数据和至少一个分词导入到第一数据库中,实现对第一数据库的更新,从而保证第一数据库中的语义数据的正确匹配,提高语义识别的效率。
可选地,该实施例集合了本地离线语音分词系统和在线领域数据动态增量更新的方式,以保证车载设备在无网环境下(车库、偏远地区)也可以进行语音语义识别。而在网络良好的情况下,可以自动更新本地离线的领域模型库。
作为一种可选的实施方式,步骤S402,获取对目标语音进行识别得到的目标文本包括:获取对车载设备或者语音输入设备接收到的目标语音进行识别得到的目标文本。
该实施例的语义识别方法可以适用于车载语义场景中,比如,适用在车载的硬件环境中。在获取对目标语音进行识别得到的目标文本时,可以获取对车载设备或者语音输入设备接收到的目标语音进行识别得到的目标文本,其中,语音输入设备可以为麦克风等,车载设备可以包括语音输入设备,从而提高了在车载场景下的语义识别的效率。
下面结合优选的实施例对本发明的技术方案进行说明。
图5是根据本发明实施例的一种语义交互的示意图。如图5所示,可以通过语音输入设备获取目标语音,比如,目标语音为音乐领域中的“播放心太软”。将目标语音识别为目标文本以实现语音识别,然后识别目标文本的语义,也即,进行语义理解,最后生成目标文本的语义所指示的命令,通过播放器执行该命令,实现意图执行,比如,通过播放器执行播放心太软的命令,从而实现语音服务。
下面对本发明实施例的在线领域标注数据的语义分词改进方法的整体设计架构进行介绍。
图6是根据本发明实施例的一种语义识别系统的示意图。如图6所示,该系统包括:领域词库模型、分词模块、决策模型、语义解析模型、词库同步模块等。
下面对该实施例的领域词库模型进行介绍。
该实施例可以向领域词库模型导入运营挖掘的数据、地图兴趣点(Point ofInterest,简称为POI)的更新数据、听内容的推荐数据以及本地的通讯录数据等。除此之外,也可以向领域词库模型导入与车载语音交互相关的其它领域数据。
图7是根据本发明实施例的一种领域词库模型的示意图。如图7所示,导入车载领域数据,可以通过词性标注+命名实体的方式进行导入。该实施例可以导入运营挖掘上新功能,导入命令cmd.dict,该命令cmd.dict可以包括打开/VA_launch、屏幕/NC_screen、我想去/VP;导入地图平台城市更新数据,比如,导入兴趣点poi.dict,该兴趣点poi.dict可以包括世界之窗/NP、广州/NP、西藏/NP/NM,其中,NP用于指示分词所属的地图领域,NM用于指示分词所属的音乐领域;导入音乐、电台推荐数据,比如,导入听内容ting.dict,该听内容ting.dic包括南山南/NM、心太软/NM、逻辑思维/NR;导入本地通讯录,比如,导入通讯录person.dict,该通讯录person.dict包括父亲/NC/NM、周杰伦NC/NS、张三/NC,其中,NC用于指示分词所属的通讯录,NS用于指示分词所所属的明星领域。在向领域数据库中导入上述数据之后,可以进行词典拓展words_Xxx.dict。其中,VA、NC、VP、NP、NM、NC、NS均为用于指示分词所属领域的标注信息,可以预先定义。
该实施例的领域词库模型可以实时搜索,使得分词的匹配效果、语义理解得到优化,更加合理,比如,输入“南山南”,在领域词库模型中匹配词组“南山南”,而不是词组“南山_南”,进行语义解析,可以解析出“南山南”为音乐/NM,而不是地址/NP,可以使得内容识别率由原来的49.5%,提高到81.5%,提高了语义识别的效率。
下面对该实施例的分词模块进行介绍。
该实施例的分词模块可以基于词典在领域词库模型中进行高效分词查询,由于在导入几十万级别的海量数据之后,由于车载环境硬件性能不及服务端强大,所以在该分词模块引入Tire树-高效存储检索结构,可以大幅提高该实施例的分词在领域词库模型中的查询的效率。最后引入双数组Tire树结构以进一步优化普通Tire数的内存占用空间。
图8是根据本发明实施例的一种词典树的示意图。如图8所示,通过对目标语音识别得到的目标文本为“导航到西丽”,需要在海量领域数据中快速检索,切分出“导航”、“到”、“西丽”词组。
该实施例的词典树的“导航仪”路径中包括“导航”、“到达”路径中包括“到”、“西丽湖”路径中包括“西丽”。海量词典数据检索效率与词典条数无关,词典数据的公共前缀可以共享空间,比建立哈希表,从左往后拼接词语再去哈希表中查找的方案更省空间,比如,对于10万词库的哈希表的方案的内存约为60M,而字典树方案的内存约为45M,内存减少了25%。
另外,字典树的空间利用率低,但算法简单,双数组字典树可以节省17%内存,优化普通字典树的内存占用空间,可以使用状态转移矩阵算法,该算法较复杂。
下面对该实施例的决策模型进行介绍。
该实施例的决策模型可以通过导入分词规则,再加上上述的在线领域词库模型和分词模块,构成了该实施例的基于在线领域数据的分词改进方法。图9是根据本发明实施例的另一种语义识别的方法的流程图。如图9所示,该方法包括以下步骤:
步骤S901,切分对目标语音识别得到的目标文本。
在获取目标语音之后,切分对目标语音识别得到的目标文本,可以基于词典切分相邻的三个词。比如,将对目标语音识别到的“播放心太软”切分为相邻的三个词。
表1第一分词结果表
编号 | 分词结果 | 长度 |
0 | 播放_心_太软 | 5 |
1 | 播放_心_太 | 4 |
2 | 播_放心_太软 | 5 |
3 | 播_放心_太 | 4 |
4 | 播_放_心 | 3 |
表1为根据本发明实施例的第一分词结果表。如表1所示,该分词结果表包括5个分词结果“播放_心_太软”、“播放_心_太”、“播_放心_太软”、“播_放心_太”、“播_放_心”,对应的长度分别为5、4、5、4、3。
步骤S902,向决策模型导入分词规则。
在切分对目标语音识别得到的目标文本之后,可以得到多个分词结果,向决策模型导入分词规则,确定最终的分词结果。
表2第二分词结果表
编号 | 分词结果 | 长度 |
0 | 播放_心_太软 | 5 |
2 | 播_放心_太软 | 5 |
表2是根据本发明实施例的第二分词结果表。如表2所示,从表1中先选取长度最大的分词结果,Max((x1)+(x2)+…+(xn)),其中,x1用于表示第1个分词的长度,x2用于表示第2个分词的长度,xn用于表示分词结果中的第n个分词的长度。由于“播放_心_太软”、“播_放心_太软”的长度在所有分词结果中最长,均为5,因而筛选出分词结果“播放_心_太软”、“播_放心_太软”。
表3第三分词结果表
编号 | 分词结果 | 长度 | 平均长度 |
0 | 播放_心_太软 | 5 | 1.667 |
2 | 播_放心_太软 | 5 | 1.667 |
表3是根据本发明实施例的第三分词结果表。如表3所示,计算表2所示的分词结果的平均长度,avg(x1+x2+…+xn)。比如,分词结果“播放_心_太软”中的“播放”长度为2,“心”的长度为1,“太软”的长度为2,则其平均长度为(3+1+2)/3=1.667;分词结果“播_放心_太软”中的“播”长度为1,“放心”的长度为2,“太软”的长度为2,则其平均长度为(1+2+2)/3=1.667。
表4第四分词结果表
编号 | 分词结果 | 长度 | 平均长度 | 标准差 |
0 | 播放_心_太软 | 5 | 1.667 | 0.577 |
2 | 播_放心_太软 | 5 | 1.667 | 0.577 |
表4是根据本发明实施例的第四分词结果表。如表4所示,计算表4所示的分词结果的标准差,该标准差可以用于反映分词结果中的词长的变化幅度,sqrt(((x1-x)^2+(x2-x)^2+…(xn-x)^2)/(n-1)),其中,x用于表示平均长度。比如,分词结果“播放_心_太软”的标准差为分词结果“播_放心_太软”的标准差为
表5第五分词结果表
表5是根据本发明实施例的第五分词结果表。如表5所示,计算表5所示的分词结果的自然对数,该自然对数可以用于反映单自由语素度,选取单自由语素度最高的分词结果。第一轮“播放_心_太软”中的“播放”胜出,后续“心_太软”同理胜出,也即,选取分词结果“播放_心_太软”作为为目标文本的目标分词结果,也即,作为目标文本的最优分词组合。
步骤S903,执行目标分词结果对应的命令。
执行目标分词结果对应的命令,比如,播放“心太软”对应的歌曲。
下面对该实施例的语义解析模型进行介绍。
语义解析模型对由分词模块得到的分词进行语义解析,可以在语义模板策略表中确定分词的语义,该语义模板策略表包括分词所属领域、执行命令、领域标注信息。在通过语义解析模型解析出分词的语义之后,调用应用,以执行分词的语义所指示的执行命令。该语义解析模型还可以向灯塔数据库上报信息,比如,上报分词对应的领域信息、执行命令、状态信息等。
下面对该实施例的词库同步模块进行介绍。
该实施例的词库同步模块运行在车载设备的本地,用于保持本地词库和云端词库的数据始终同步。产品运营在后台编辑或者地图、听数据自动更新之后,词库同步模块将数据增量更新到本地,再将最新的领域数据导入到词库模型中,保证后续词库模型中的内容可以正确匹配。
下面对该实施例的用户数据上报和后台运营分析进行介绍。
该实施例采用“反馈-优化”闭环,依赖上报模块,将用户使用语义理解和分词的过程中的行为和结果数据进行上报到灯塔数据库中,从而方便产品和运营人员跟踪、分析线上问题和表现,比如,分析功能指令缺失、语义意图错误、分发执行失败,进而对词库进行梳理和编辑,优化云端词库,而云端词库可以包括地图领域中的词,也可以包括音乐领域中的词,进而以出厂预置的方式和增量更新的方式,通过词库同步模块更新领域词库模型。
通过以上方法可以达到的技术效果表现在解决下面几个语音语义的问题上。指令缺失,例如,用户说太热了,对应的语义应该是“空调温度调低”,而不是未知;意图错误,比如,用户说带我去山顶,对应的语音应该是“播放歌曲”,而不是导航;内容缺失,比如,用户说岁月神偷,对应的语义应该是“播放明日之子的最新音乐”,而不是电影或者其他未知内容;功能更新,比如,语音上了新的车载功能,用户说发消息给某好友,传统做法需要更新语音助手,加入对消息语义的支持功能。而采用该实施例的方法,只需要在线配置好对应的命令词库和命令语义标注,通过云端同步模块更新到本地即可支持新的功能。
该实施例集合了本地离线语音分词系统和在线领域数据动态增量更新的方式,从而保证车载设备在某些无网离线环境下(车库、偏远地区)也可以进行语音语义识别。而在网络状态良好的情况下自动更新本地离线的领域模型库。
该实施例的语音平台的离线语义模型可以不具备在线更新的能力,可以在下次大版本发布时全量更新本地的语义模型。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一方面,还提供了一种用于实施上述语义识别方法的语义识别装置。图10是根据本发明实施例的一种语义识别装置的示意图。如图10所示,该装置可以包括:获取单元10、查找单元20、第一确定单元30、第二确定单元40和第三确定单元50。
获取单元10,用于获取对目标语音进行识别得到的目标文本。
查找单元20,用于在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域。
第一确定单元30,用于在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域。
第二确定单元40,用于根据目标标注信息确定分词的目标语义。
第三确定单元50,用于按照分词的目标语义,确定目标文本的语义。
可选地,查找单元包括:确定模块和查找模块。其中,确定模块,用于从目标文本的词语中选择至少一个词语,并将至少一个词语确定为目标词语;查找模块,用于在第一数据库中查找目标词语。
需要说明的是,该实施例中的获取单元10可以用于执行本申请实施例中的步骤S402,该实施例中的查找单元20可以用于执行本申请实施例中的步骤S404,该实施例中的第一确定单元30可以用于执行本申请实施例中的步骤S406,该实施例中的第二确定单元40可以用于执行本申请实施例中的步骤S408,该实施例中的第三确定单元50可以用于执行本申请实施例中的步骤S410。
该实施例通过获取单元10获取对目标语音进行识别得到的目标文本,通过查找单元在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域,通过第一确定单元30在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域,通过第二确定单元40根据目标标注信息确定分词的目标语义,通过第三确定单元50按照分词的目标语义,确定目标文本的语义。由于目标文本的分词带有用于标注分词所属领域的标注信息,确定目标文本的语义,进而达到了保证目标文本语义的正确识别的目的,克服了相关技术中基于全量的词库,会导致内存占用大、轻量定制版本的领域词语又覆盖不全的难题,从而达到了提高语义识别的效率的技术效果,进而解决了相关技术中存在语义识别效率低的技术问题。
此处需要说明的是,上述单元和模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图3所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。其中,硬件环境包括网络环境。
根据本发明实施例的另一方面,还提供了一种用于实施上述语义识别方法的电子装置。
图11是根据本发明实施例的一种电子装置的结构框图。如图11所示,该的电子装置可以包括:一个或多个(图中仅示出一个)处理器111、存储器113。可选地,如图11所示,该电子装置还可以包括传输装置115。
其中,存储器113可用于存储软件程序以及模块,如本发明实施例中的语义识别方法和装置对应的程序指令/模块,处理器111通过运行存储在存储器113内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语义识别方法。存储器113可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器113可进一步包括相对于处理器111远程设置的存储器,这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置115用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置115包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置115为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器113用于存储应用程序。
处理器111可以通过传输装置115调用存储器113存储的应用程序,以执行下述步骤:
获取对目标语音进行识别得到的目标文本;
在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;
在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;
根据目标标注信息确定分词的目标语义;
按照分词的目标语义,确定目标文本的语义。
处理器111还用于执行下述步骤:获取目标文本的至少一个词语;在第一数据库中,查找至少一个词语;在查找到的至少一个词语在第一数据库中已标注有标注信息的情况下,将标注有标注信息的至少一个词语,确定为目标文本的至少一个分词。
处理器111还用于执行下述步骤:从目标文本的词语中选择至少一个词语,并将至少一个词语确定为目标词语;在第一数据库中查找目标词语。
处理器111还用于执行下述步骤:在第一数据库中,查找目标文本的词语中的目标词语之前,从服务器中获取多个领域中的具有标注信息的词语,其中,具有标注信息的词语在服务器上标注标注信息;将具有标注信息的词语导入第一数据库中。
处理器111还用于执行下述步骤:在具有字典树结构的第一数据库中,查找目标文本的词语中的目标词语,其中,多个领域中的具有标注信息的词语分布在字典树结构的多条路径中。
处理器111还用于执行下述步骤:在第一数据库中,查找目标文本的词语中的目标词语之前,从服务器中获取多个领域中更新后的具有标注信息的词语;向第一数据库中添加更新后的具有标注信息的词语,得到更新后的第一数据库;在更新后的第一数据库中,查找目标文本的词语中的目标词语。
处理器111还用于执行下述步骤:从服务器中获取多个领域中新增的具有标注信息的词语,其中,第一数据库中未存储新增的具有标注信息的词语,更新后的具有标注信息的词语包括新增的具有标注信息的词语;向第一数据库中添加新增的具有标注信息的词语,得到更新后的第一数据库。
处理器111还用于执行下述步骤:从服务器中获取多个领域中修改后的具有标注信息的词语,其中,第一数据库中存储有与修改后的具有标注信息的词语对应的修改前的具有标注信息的词语,更新后的具有标注信息的词语包括修改后的具有标注信息的词语;将第一数据库中存储的修改前的具有标注信息的词语,替换为修改后的具有标注信息的词语,得到更新后的第一数据库。
处理器111还用于执行下述步骤:获取对目标文本进行划分得到的多种划分结果,其中,每种划分结果由目标文本的词语组成;在多种划分结果中确定满足目标规则的目标划分结果;在第一数据库中,查找目标划分结果的词语中的目标词语。
处理器111还用于执行下述步骤:在多种划分结果中,获取每种划分结果中的所有词语的长度之和、并确定所有词语的长度之和最大的第一划分结果,其中,第一划分结果的数量为第一数量;在第一数量为1的情况下,将第一划分结果确定为满足目标规则的目标划分结果;在第一数量不为1的情况下,在第一数量的第一划分结果中,获取每种第一划分结果中的所有词语的平均长度、并确定所有词语的平均长度最大的第二划分结果,其中,第二划分结果的数量为第二数量,第二数量小于等于第一数量;在第二数量为1的情况下,将第二划分结果确定为满足目标规则的目标划分结果;在第二数量不为1的情况下,在第二数量的第二划分结果中,获取每种第二划分结果中的所有词语的词长变化幅度、并确定所有词语的词长变化幅度最小的第三划分结果,其中,第三划分结果的数量为第三数量,第三数量小于等于第二数量;在第三数量为1的情况下,将第三划分结果确定为满足目标规则的目标划分结果;在第三数量不为1的情况下,在第三数量的第三划分结果中,获取每种第三划分结果中的所有词语的自由语素度、并确定所有词语的自由语素度最高的第四划分结果,其中,第四划分结果的数量为第四数量,第四数量小于等于第三数量,自由语素度用于指示词语与语素构成新的词语的概率;在第四数量为1的情况下,将第四划分结果确定为满足目标规则的目标划分结果。
处理器111还用于执行下述步骤:在按照分词的目标语义,确定目标文本的语义之后,向服务器上报用于指示目标文本的语义的数据,其中,用于指示目标文本的语义的数据用于更新服务器上的第二数据库,第二数据库用于存储多个领域中的词语;通过第二数据库更新第一数据库。
处理器111还用于执行下述步骤:获取对车载设备或者语音输入设备接收到的目标语音进行识别得到的目标文本。
在本发明实施例中,获取对目标语音进行识别得到的目标文本;在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;根据目标标注信息确定分词的目标语义;按照分词的目标语义,确定目标文本的语义。由于目标文本的分词带有用于标注分词所属领域的标注信息,确定目标文本的语义,达到了保证目标文本语义的正确识别的目的,达到了提高语义识别的效率的技术效果,进而解决了相关技术中存在语义识别效率低的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等电子装置。图11其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图11所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子装置相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行语义识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取对目标语音进行识别得到的目标文本;
在第一数据库中,查找目标文本的词语中的目标词语,其中,第一数据库用于存储具有标注信息的词语,标注信息用于指示具有标注信息的词语所属的领域;
在第一数据库中查找到目标词语的情况下,将第一数据库中具有目标标注信息的目标词语,确定为目标文本的分词,其中,标注信息包括目标标注信息,目标标注信息用于指示目标词语所属的领域;
根据目标标注信息确定分词的目标语义;
按照分词的目标语义,确定目标文本的语义。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从目标文本的词语中选择至少一个词语,并将至少一个词语确定为目标词语;在第一数据库中查找目标词语。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在第一数据库中,查找目标文本的词语中的目标词语之前,从服务器中获取多个领域中的具有标注信息的词语,其中,具有标注信息的词语在服务器上标注标注信息;将具有标注信息的词语导入第一数据库中。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在具有字典树结构的第一数据库中,查找目标文本的词语中的目标词语,其中,多个领域中的具有标注信息的词语分布在字典树结构的多条路径中。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在第一数据库中,查找目标文本的词语中的目标词语之前,从服务器中获取多个领域中更新后的具有标注信息的词语;向第一数据库中添加更新后的具有标注信息的词语,得到更新后的第一数据库;在更新后的第一数据库中,查找目标文本的词语中的目标词语。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从服务器中获取多个领域中新增的具有标注信息的词语,其中,第一数据库中未存储新增的具有标注信息的词语,更新后的具有标注信息的词语包括新增的具有标注信息的词语;向第一数据库中添加新增的具有标注信息的词语,得到更新后的第一数据库。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从服务器中获取多个领域中修改后的具有标注信息的词语,其中,第一数据库中存储有与修改后的具有标注信息的词语对应的修改前的具有标注信息的词语,更新后的具有标注信息的词语包括修改后的具有标注信息的词语;将第一数据库中存储的修改前的具有标注信息的词语,替换为修改后的具有标注信息的词语,得到更新后的第一数据库。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取对目标文本进行划分得到的多种划分结果,其中,每种划分结果由目标文本的词语组成;在多种划分结果中确定满足目标规则的目标划分结果;在第一数据库中,查找目标划分结果的词语中的目标词语。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在多种划分结果中,获取每种划分结果中的所有词语的长度之和、并确定所有词语的长度之和最大的第一划分结果,其中,第一划分结果的数量为第一数量;在第一数量为1的情况下,将第一划分结果确定为满足目标规则的目标划分结果;在第一数量不为1的情况下,在第一数量的第一划分结果中,获取每种第一划分结果中的所有词语的平均长度、并确定所有词语的平均长度最大的第二划分结果,其中,第二划分结果的数量为第二数量,第二数量小于等于第一数量;在第二数量为1的情况下,将第二划分结果确定为满足目标规则的目标划分结果;在第二数量不为1的情况下,在第二数量的第二划分结果中,获取每种第二划分结果中的所有词语的词长变化幅度、并确定所有词语的词长变化幅度最小的第三划分结果,其中,第三划分结果的数量为第三数量,第三数量小于等于第二数量;在第三数量为1的情况下,将第三划分结果确定为满足目标规则的目标划分结果;在第三数量不为1的情况下,在第三数量的第三划分结果中,获取每种第三划分结果中的所有词语的自由语素度、并确定所有词语的自由语素度最高的第四划分结果,其中,第四划分结果的数量为第四数量,第四数量小于等于第三数量,自由语素度用于指示词语与语素构成新的词语的概率;在第四数量为1的情况下,将第四划分结果确定为满足目标规则的目标划分结果。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在按照分词的目标语义,确定目标文本的语义之后,向服务器上报用于指示目标文本的语义的数据,其中,用于指示目标文本的语义的数据用于更新服务器上的第二数据库,第二数据库用于存储多个领域中的词语;通过第二数据库更新第一数据库。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取对车载设备或者语音输入设备接收到的目标语音进行识别得到的目标文本。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取对车载设备或者语音输入设备接收到的目标语音进行识别得到的目标文本。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种语义识别方法,其特征在于,包括:
获取对目标语音进行识别得到的目标文本;
在第一数据库中,查找所述目标文本的词语中的目标词语,其中,所述第一数据库用于存储具有标注信息的词语,所述标注信息用于指示具有所述标注信息的词语所属的领域;
在所述第一数据库中查找到所述目标词语的情况下,将所述第一数据库中具有目标标注信息的所述目标词语,确定为所述目标文本的分词,其中,所述标注信息包括所述目标标注信息,所述目标标注信息用于指示所述目标词语所属的领域;
根据所述目标标注信息确定所述分词的目标语义;
按照所述分词的所述目标语义,确定所述目标文本的语义。
2.根据权利要求1所述的方法,其特征在于,在所述第一数据库中,查找所述目标文本的词语中的目标词语包括:
从所述目标文本的词语中选择至少一个词语,并将所述至少一个词语确定为所述目标词语;
在所述第一数据库中查找所述目标词语。
3.根据权利要求1所述的方法,其特征在于,在所述第一数据库中,查找所述目标文本的词语中的所述目标词语之前,所述方法还包括:
从服务器中获取多个领域中的具有所述标注信息的词语,其中,具有所述标注信息的词语在所述服务器上标注所述标注信息;
将具有所述标注信息的词语导入所述第一数据库中。
4.根据权利要求1所述的方法,其特征在于,在所述第一数据库中,查找所述目标文本的词语中的目标词语包括:
在具有字典树结构的所述第一数据库中,查找所述目标文本的词语中的目标词语,其中,多个领域中的具有所述标注信息的词语分布在所述字典树结构的多条路径中。
5.根据权利要求1所述的方法,其特征在于,
在所述第一数据库中,查找所述目标文本的词语中的所述目标词语之前,所述方法还包括:从服务器中获取多个领域中更新后的具有所述标注信息的词语;向所述第一数据库中添加更新后的具有所述标注信息的词语,得到更新后的所述第一数据库;
在所述第一数据库中,查找所述目标文本的词语中的所述目标词语包括:在更新后的所述第一数据库中,查找所述目标文本的词语中的所述目标词语。
6.根据权利要求5所述的方法,其特征在于,
从所述服务器中获取所述多个领域中更新后的具有所述标注信息的词语包括:从所述服务器中获取所述多个领域中新增的具有所述标注信息的词语,其中,所述第一数据库中未存储新增的具有所述标注信息的词语,更新后的具有所述标注信息的词语包括新增的具有所述标注信息的词语;
向所述第一数据库中添加更新后的具有所述标注信息的词语,得到更新后的所述第一数据库包括:向所述第一数据库中添加新增的具有所述标注信息的词语,得到更新后的所述第一数据库。
7.根据权利要求6所述的方法,其特征在于,
从所述服务器中获取所述多个领域中更新后的具有所述标注信息的词语包括:从所述服务器中获取所述多个领域中修改后的具有所述标注信息的词语,其中,所述第一数据库中存储有与修改后的具有所述标注信息的词语对应的修改前的具有所述标注信息的词语,更新后的具有所述标注信息的词语包括修改后的具有所述标注信息的词语;
向所述第一数据库中添加更新后的具有所述标注信息的词语,得到更新后的所述第一数据库包括:将所述第一数据库中存储的修改前的具有所述标注信息的词语,替换为修改后的具有所述标注信息的词语,得到更新后的所述第一数据库。
8.根据权利要求1所述的方法,其特征在于,在所述第一数据库中,查找所述目标文本的词语中的所述目标词语包括:
获取对所述目标文本进行划分得到的多种划分结果,其中,每种所述划分结果由所述目标文本的词语组成;
在多种所述划分结果中确定满足目标规则的目标划分结果;
在所述第一数据库中,查找所述目标划分结果的词语中的所述目标词语。
9.根据权利要求8所述的方法,其特征在于,在多种所述划分结果中确定满足所述目标规则的所述目标划分结果包括:
在多种所述划分结果中,获取每种所述划分结果中的所有词语的长度之和、并确定所述所有词语的长度之和最大的第一划分结果,其中,所述第一划分结果的数量为第一数量;在所述第一数量为1的情况下,将所述第一划分结果确定为满足所述目标规则的所述目标划分结果;
在所述第一数量不为1的情况下,在所述第一数量的所述第一划分结果中,获取每种所述第一划分结果中的所述所有词语的平均长度、并确定所述所有词语的平均长度最大的第二划分结果,其中,所述第二划分结果的数量为第二数量,所述第二数量小于等于所述第一数量;在所述第二数量为1的情况下,将所述第二划分结果确定为满足所述目标规则的所述目标划分结果;
在所述第二数量不为1的情况下,在所述第二数量的所述第二划分结果中,获取每种所述第二划分结果中的所述所有词语的词长变化幅度、并确定所述所有词语的词长变化幅度最小的第三划分结果,其中,所述第三划分结果的数量为第三数量,所述第三数量小于等于所述第二数量;在所述第三数量为1的情况下,将所述第三划分结果确定为满足所述目标规则的所述目标划分结果;
在所述第三数量不为1的情况下,在所述第三数量的所述第三划分结果中,获取每种所述第三划分结果中的所述所有词语的自由语素度、并确定所述所有词语的自由语素度最高的第四划分结果,其中,所述第四划分结果的数量为第四数量,所述第四数量小于等于所述第三数量,所述自由语素度用于指示所述词语与语素构成新的词语的概率;在所述第四数量为1的情况下,将所述第四划分结果确定为满足所述目标规则的所述目标划分结果。
10.根据权利要求1至9中任意一项所述的方法,其特征在于,在按照所述分词的所述目标语义,确定所述目标文本的语义之后,所述方法还包括:
向服务器上报用于指示所述目标文本的语义的数据,其中,用于指示所述目标文本的语义的数据用于更新所述服务器上的第二数据库,所述第二数据库用于存储多个领域中的词语;
通过所述第二数据库更新所述第一数据库。
11.根据权利要求1至9中任意一项所述的方法,其特征在于,获取对所述目标语音进行识别得到的所述目标文本包括:
获取对车载设备或者语音输入设备接收到的所述目标语音进行识别得到的目标文本。
12.一种语义识别装置,其特征在于,包括:
获取单元,用于获取对目标语音进行识别得到的目标文本;
查找单元,用于在第一数据库中,查找所述目标文本的词语中的目标词语,其中,所述第一数据库用于存储具有标注信息的词语,所述标注信息用于指示具有所述标注信息的词语所属的领域;
第一确定单元,用于在所述第一数据库中查找到所述目标词语的情况下,将所述第一数据库中具有目标标注信息的所述目标词语,确定为所述目标文本的分词,其中,所述标注信息包括所述目标标注信息,所述目标标注信息用于指示所述目标词语所属的领域;
第二确定单元,用于根据所述目标标注信息确定所述分词的目标语义;
第三确定单元,用于按照所述分词的所述目标语义,确定所述目标文本的语义。
13.根据权利要求12所述的装置,其特征在于,查找单元包括:
确定模块,用于从所述目标文本的词语中选择至少一个词语,并将所述至少一个词语确定为所述目标词语;
查找模块,用于在所述第一数据库中查找所述目标词语。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至11任一项中所述的语义识别方法。
15.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行所述权利要求1至11任一项中所述的语义识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711353756.4A CN109933774A (zh) | 2017-12-15 | 2017-12-15 | 语义识别方法、装置存储介质和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711353756.4A CN109933774A (zh) | 2017-12-15 | 2017-12-15 | 语义识别方法、装置存储介质和电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109933774A true CN109933774A (zh) | 2019-06-25 |
Family
ID=66980484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711353756.4A Pending CN109933774A (zh) | 2017-12-15 | 2017-12-15 | 语义识别方法、装置存储介质和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933774A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767219A (zh) * | 2019-09-17 | 2020-02-07 | 中国第一汽车股份有限公司 | 语义更新方法、装置、服务器和存储介质 |
CN110825840A (zh) * | 2019-11-08 | 2020-02-21 | 北京声智科技有限公司 | 词库扩充方法、装置、设备及存储介质 |
CN111273990A (zh) * | 2020-01-21 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息交互方法、装置、计算机设备和存储介质 |
CN111475611A (zh) * | 2020-03-02 | 2020-07-31 | 北京声智科技有限公司 | 词典管理方法、装置、计算机设备及存储介质 |
CN111737541A (zh) * | 2020-06-30 | 2020-10-02 | 湖北亿咖通科技有限公司 | 一种支持多语言的语义识别评估方法 |
CN111768766A (zh) * | 2020-06-29 | 2020-10-13 | 康佳集团股份有限公司 | 语音语义信息提取方法、装置、智能终端及存储介质 |
CN111798838A (zh) * | 2020-07-16 | 2020-10-20 | 上海茂声智能科技有限公司 | 一种提高语音识别准确率的方法、系统、设备及存储介质 |
CN112487137A (zh) * | 2019-09-12 | 2021-03-12 | 甲骨文国际公司 | 使用集成共享资源来流线化对话处理 |
CN112784570A (zh) * | 2021-02-23 | 2021-05-11 | 南方电网调峰调频发电有限公司信息通信分公司 | 用于文本相似度计算的分词方法、装置、设备和介质 |
CN113408292A (zh) * | 2020-11-03 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651026A (zh) * | 2012-04-01 | 2012-08-29 | 百度在线网络技术(北京)有限公司 | 通过预计算优化搜索引擎分词的方法及搜索引擎分词装置 |
CN103823814A (zh) * | 2012-11-19 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置 |
CN105956011A (zh) * | 2016-04-21 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106446162A (zh) * | 2016-09-26 | 2017-02-22 | 浙江大学 | 一种面向领域的本体知识库文本检索方法 |
-
2017
- 2017-12-15 CN CN201711353756.4A patent/CN109933774A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651026A (zh) * | 2012-04-01 | 2012-08-29 | 百度在线网络技术(北京)有限公司 | 通过预计算优化搜索引擎分词的方法及搜索引擎分词装置 |
CN103823814A (zh) * | 2012-11-19 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置 |
CN105956011A (zh) * | 2016-04-21 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106446162A (zh) * | 2016-09-26 | 2017-02-22 | 浙江大学 | 一种面向领域的本体知识库文本检索方法 |
Non-Patent Citations (1)
Title |
---|
HIT-鄢: "《https://www.cnblogs.com/hitwhhw09/p/4602387.html》", 26 June 2015 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487137B (zh) * | 2019-09-12 | 2023-11-03 | 甲骨文国际公司 | 使用集成共享资源来流线化对话处理 |
CN112487137A (zh) * | 2019-09-12 | 2021-03-12 | 甲骨文国际公司 | 使用集成共享资源来流线化对话处理 |
CN110767219B (zh) * | 2019-09-17 | 2021-12-28 | 中国第一汽车股份有限公司 | 语义更新方法、装置、服务器和存储介质 |
CN110767219A (zh) * | 2019-09-17 | 2020-02-07 | 中国第一汽车股份有限公司 | 语义更新方法、装置、服务器和存储介质 |
CN110825840A (zh) * | 2019-11-08 | 2020-02-21 | 北京声智科技有限公司 | 词库扩充方法、装置、设备及存储介质 |
CN110825840B (zh) * | 2019-11-08 | 2023-02-17 | 北京声智科技有限公司 | 词库扩充方法、装置、设备及存储介质 |
CN111273990A (zh) * | 2020-01-21 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息交互方法、装置、计算机设备和存储介质 |
CN111475611A (zh) * | 2020-03-02 | 2020-07-31 | 北京声智科技有限公司 | 词典管理方法、装置、计算机设备及存储介质 |
CN111475611B (zh) * | 2020-03-02 | 2023-09-15 | 北京声智科技有限公司 | 词典管理方法、装置、计算机设备及存储介质 |
CN111768766A (zh) * | 2020-06-29 | 2020-10-13 | 康佳集团股份有限公司 | 语音语义信息提取方法、装置、智能终端及存储介质 |
CN111737541A (zh) * | 2020-06-30 | 2020-10-02 | 湖北亿咖通科技有限公司 | 一种支持多语言的语义识别评估方法 |
CN111737541B (zh) * | 2020-06-30 | 2021-10-15 | 湖北亿咖通科技有限公司 | 一种支持多语言的语义识别评估方法 |
CN111798838A (zh) * | 2020-07-16 | 2020-10-20 | 上海茂声智能科技有限公司 | 一种提高语音识别准确率的方法、系统、设备及存储介质 |
CN113408292A (zh) * | 2020-11-03 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN112784570A (zh) * | 2021-02-23 | 2021-05-11 | 南方电网调峰调频发电有限公司信息通信分公司 | 用于文本相似度计算的分词方法、装置、设备和介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933774A (zh) | 语义识别方法、装置存储介质和电子装置 | |
US20200301954A1 (en) | Reply information obtaining method and apparatus | |
CN106910501A (zh) | 文本实体提取方法及装置 | |
CN103377652B (zh) | 一种用于进行语音识别的方法、装置和设备 | |
CN109086303A (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
CN109523991A (zh) | 语音识别的方法及装置、设备 | |
WO2008043645B1 (en) | Establishing document relevance by semantic network density | |
CN108228657B (zh) | 一种关键字检索的实现方法及装置 | |
CN107515857A (zh) | 基于定制技能的语义理解方法及系统 | |
CN108446280A (zh) | 数据更新方法及装置 | |
CN111178081A (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN106462564A (zh) | 在文档内提供实际建议 | |
CN107665188B (zh) | 一种语义理解方法及装置 | |
CN105096944A (zh) | 语音识别方法及装置 | |
CN110287364A (zh) | 语音搜索方法、系统、设备及计算机可读存储介质 | |
CN109284362A (zh) | 一种内容检索方法及系统 | |
CN105653576A (zh) | 信息搜索的方法及装置、人工座席服务方法及系统 | |
CN117332062A (zh) | 一种数据处理方法和相关装置 | |
CN106919703A (zh) | 电影信息搜索方法及装置 | |
CN110020429A (zh) | 语义识别方法及设备 | |
CN109492126A (zh) | 一种智能交互方法及装置 | |
CN109215636A (zh) | 一种语音信息的分类方法及系统 | |
CN110209780A (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN111611793B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |