CN115547337B - 语音识别方法及相关产品 - Google Patents
语音识别方法及相关产品 Download PDFInfo
- Publication number
- CN115547337B CN115547337B CN202211487069.2A CN202211487069A CN115547337B CN 115547337 B CN115547337 B CN 115547337B CN 202211487069 A CN202211487069 A CN 202211487069A CN 115547337 B CN115547337 B CN 115547337B
- Authority
- CN
- China
- Prior art keywords
- scene
- target
- pinyin
- user
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000003993 interaction Effects 0.000 claims abstract description 53
- 230000008569 process Effects 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims description 12
- 241001672694 Citrus reticulata Species 0.000 claims description 7
- 235000019633 pungent taste Nutrition 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 241000209094 Oryza Species 0.000 description 5
- 235000007164 Oryza sativa Nutrition 0.000 description 5
- 235000009566 rice Nutrition 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000218631 Coniferophyta Species 0.000 description 1
- 208000001836 Firesetting Behavior Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- OGGXGZAMXPVRFZ-UHFFFAOYSA-N dimethylarsinic acid Chemical compound C[As](C)(O)=O OGGXGZAMXPVRFZ-UHFFFAOYSA-N 0.000 description 1
- 235000016693 dipotassium tartrate Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- AVTYONGGKAJVTE-OLXYHTOASA-L potassium L-tartrate Chemical compound [K+].[K+].[O-]C(=O)[C@H](O)[C@@H](O)C([O-])=O AVTYONGGKAJVTE-OLXYHTOASA-L 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供了一种语音识别方法及相关产品,方法包括:服务器调用人机互动引擎通过终端设备与用户进行互动,获取互动过程中用户输入的目标语音信息,并对目标语音信息进行文字识别,得到第一文本,对第一文本进行场景识别和场景关联词提取,确定第一文本对应的目标服务场景以及目标场景关联词,将目标场景关联词与目标服务场景对应的目标场景热词集合中的场景热词进行拼音对比,得到目标场景关联词与场景热词的差异值得分,用目标场景热词集合中差异值得分最高的目标场景热词替换第一文本中的目标场景关联词,得到第二文本,根据第二文本用户意图,再根据该用户意图执行对应的服务操作。可见,能够提高语音识别的准确度,提升用户体验。
Description
技术领域
本申请属于互联网产业的一般数据处理技术领域,具体涉及一种语音识别方法及相关产品。
背景技术
随着互联网产业的发展,通过手机等设备和用户进行语音交互,基于交互过程中用户输入的语音信息为用户提供相应的服务,因此,为了保证服务满足用户的需求,语音识别显得尤为重要。目前,商家在进行语音识别时,由于用户发音不标准,或者存在同音字的情况,导致语音的识别结果不准确。
发明内容
本申请提供了一种语音识别方法及相关产品,以期提高语音识别的准确度,提升用户体验。
第一方面,本申请实施例提供了一种语音识别方法,应用于语音识别系统中的服务器,所述语音识别系统包括所述服务器和用户进行语音互动的终端设备,所述服务器包括支持人机语音交互的人机互动引擎,所述方法包括:
调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及,对所述目标语音信息进行文字识别,得到第一文本;
对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型;
对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容;
根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合;
将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,所述场景热词为热度大于热度阈值的词汇,所述热度是指词汇在全部用户中的查询热度;
确定所述目标场景热词集合中差异值得分最高的目标场景热词;
用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本;
根据所述第二文本确定所述目标语音信息所表达的用户意图;以及,
根据确定出的用户意图执行对应的服务操作。
第二方面,本申请实施例提供了一种语音识别装置,应用于语音识别系统中的服务器,所述语音识别系统包括所述服务器和用户进行语音互动的终端设备,所述服务器包括支持人机语音交互的人机互动引擎,所述装置包括:
获取单元,用于调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及,对所述目标语音信息进行文字识别,得到第一文本;
场景识别单元,用于对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型;
场景关联词提取单元,用于对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容;
场景热词集合查询单元,用于根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合;
对比单元,用于将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,所述场景热词为热度大于热度阈值的词汇,所述热度是指词汇在全部用户中的查询热度;
第一确定单元,用于确定所述目标场景热词集合中差异值得分最高的目标场景热词;
替换单元,用于用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本;
第二确定单元,用于根据所述第二文本确定所述目标语音信息所表达的用户意图;以及,
服务单元,用于根据确定出的用户意图执行对应的服务操作。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如本申请实施例第一方面所述方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例第一方面所述方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例第一方面所述方法的步骤。
可以看出,本申请实施例中,服务器首先调用人机互动引擎通过终端设备与用户进行互动,获取互动过程中用户输入的目标语音信息,并对目标语音信息进行文字识别,得到第一文本,对第一文本进行场景识别和场景关联词提取,确定第一文本对应的目标服务场景以及目标场景关联词,将目标场景关联词与目标服务场景对应的目标场景热词集合中的场景热词进行拼音对比,得到目标场景关联词与场景热词的差异值得分,用目标场景热词集合中差异值得分最高的目标场景热词替换第一文本中的目标场景关联词,得到第二文本,根据第二文本确定目标语音信息所表达的用户意图,最后根据该用户意图执行对应的服务操作。如此,服务器可以通过终端设备与用户互动,并对互动过程中用户输入的语音信息进行语音识别得到第一文本,依次执行第一文本的场景识别、第一文本的场景关联词提取、场景关联词与场景热词进行拼音对比等操作来对第一文本进行修正,得到修正后的第二文本,避免用户发音不标准,或者存在同音字场景下语音识别结果不准确的情况,有利于提高语音识别的准确度,提升用户的体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音识别系统的结构框图;
图2是本申请实施例提供的一种语音识别方法的流程示意图;
图3a是本申请实施例提供的一种获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程示意图;
图3b是本申请实施例提供的第一种服务器与终端设备交互的示意图;
图3c是本申请实施例提供的第二种服务器与终端设备交互的示意图;
图3d是本申请实施例提供的第三种服务器与终端设备交互的示意图;
图3e是本申请实施例提供的第四种服务器与终端设备交互的示意图;
图3f是本申请实施例提供的第五种服务器与终端设备交互的示意图;
图4是本申请实施例提供的一种语音识别装置的功能单元组成框图;
图5是本申请实施例提供的另一种语音识别装置的功能单元组成框图;
图6是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
首先对本申请实施例所涉及的系统架构进行介绍。
请参阅图1,图1是本申请实施例提供的一种语音识别系统的结构框图。如图1所示,语音识别系统10包括服务器11和用户进行语音互动的终端设备12,服务器11和终端设备12通信连接,服务器11包括支持人机语音交互的人机互动引擎,服务器11通过调用人机互动引擎通过终端设备12与用户进行互动,获取互动过程中用户录入的目标语音信息,对所述目标语音信息进行文字识别,得到第一文本,再根据第一文本分析出目标语音信息所表达的用户意图;根据确定出的用户意图执行对应的服务操作。其中,服务器11可以是一台服务器,或者由若干服务器组成的服务器集群,或者是云计算服务中心,终端设备12可以是手机终端,平板电脑,笔记本电脑等。
基于此,本申请实施例提供了一种语音识别方法,下面结合附图对本申请实施例进行详细说明。
请参阅图2,图2是本申请实施例提供的一种语音识别方法的流程示意图,方法应用于如图1所示的语音识别系统10中的服务器11,语音识别系统10包括服务器11和用户进行语音互动的终端设备12,服务器11包括支持语音识别的人机互动引擎,如图2所示,方法包括:
步骤201,调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及,对所述目标语音信息进行文字识别,得到第一文本。
步骤202,对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景。
其中,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型。服务场景可以但不限于是听歌服务场景、阅读服务场景、视频服务场景、导航服务场景中的其中一种。
示例性的,当服务场景为听歌服务场景时,服务类型可以是歌曲播放服务,当服务场景为小说阅读服务场景时,服务类型可以是小说推送服务,当服务场景为购物服务场景时,服务类型可以是商品推送服务,当服务场景为导航服务场景时,服务类型可以是导航服务。
步骤203,对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词。
其中,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容。
示例性的,服务类型为歌曲播放服务,场景关联词为人名,服务内容即是上述服务器向上述终端设备推送与该人名关联的歌曲以便于上述终端设备进行播放,此时,该人名可以但不限于指示歌曲的演唱者、作词者、作曲者中的其中一个,不作具体限定;服务类型为小说推送服务,场景关联词为人名,服务内容即是上述服务器向上述终端设备推送与该人名关联的小说信息以便于上述终端设备进行显示,此时,该人名可以但不限于指示小说的作者、推荐者、插画师中的其中一个,不作具体限定;服务类型为商品推送服务,场景关联词为商品名称,服务内容即是上述服务器向上述终端设备推送与该商品名称关联的商品信息以便于上述终端设备进行显示;服务类型为导航服务,场景关联词为地名,服务内容即是上述服务器向上述终端设备推送与该地名关联的导航信息以便于上述终端设备为用户导航到该地名。
步骤204,根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合。
其中,预先设置各种服务场景与场景热词集合的对应关系。
步骤205,将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分。
其中,所述场景热词为热度大于热度阈值的词汇,本申请中的所述热度是指词汇在全部用户中的查询热度。词汇的热度越高,说明全部用户针对该词汇的查询次数越多,反之,词汇的热度越低,说明全部用户针对该词汇的查询次数越少。
需要说明的是,两个词汇之间的差异值得分越大,该两个词汇相似度越高,即该两个词汇越相似,反之,两个词汇之间的差异值得分越小,该两个词汇相似度越低,即该两个词汇差别越大。
步骤206,确定所述目标场景热词集合中差异值得分最高的目标场景热词。
步骤207,用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本。
步骤208,根据所述第二文本确定所述目标语音信息所表达的用户意图。
步骤209,根据确定出的用户意图执行对应的服务操作。
其中,上述目标场景热词集合中可以存在与上述目标场景关联词相同的场景热词,上述目标场景热词集合中可以不存在与上述目标场景关联词相同的场景热词。
可以看出,本申请实施例中,服务器首先调用人机互动引擎通过终端设备与用户进行互动,获取互动过程中用户输入的目标语音信息,并对目标语音信息进行文字识别,得到第一文本,对第一文本进行场景识别和场景关联词提取,确定第一文本对应的目标服务场景以及目标场景关联词,将目标场景关联词与目标服务场景对应的目标场景热词集合中的场景热词进行拼音对比,得到目标场景关联词与场景热词的差异值得分,用目标场景热词集合中差异值得分最高的目标场景热词替换第一文本中的目标场景关联词,得到第二文本,根据第二文本确定目标语音信息所表达的用户意图,最后根据该用户意图执行对应的服务操作。如此,服务器可以通过终端设备与用户互动,并对互动过程中用户输入的语音信息进行语音识别得到第一文本,依次执行第一文本的场景识别、第一文本的场景关联词提取、场景关联词与场景热词进行拼音对比等操作来对第一文本进行修正,得到修正后的第二文本,避免用户发音不标准,或者存在同音字场景下导致语音识别结果不准确的情况,有利于提高语音识别的准确度,提升用户的体验。
为了便于理解,下面将对本申请实施例中获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程进行阐述。
请参阅图3a,图3a是本申请实施例提供的一种获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程示意图,如图3a所示,获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程A包括:
步骤301、确定所述目标场景热词集合中是否存在与所述目标场景关联词的拼音完全相同的第一词汇。
若存在,则执行步骤302。
步骤302、确定所述第一词汇的数量是否大于1。
步骤302之后,若是,则执行步骤303。
步骤303、确定所述用户是否曾经针对所述第一词汇进行过查询。
步骤303之后,若是,则执行步骤304。
步骤304、确定所述第一词汇中被查询过的第二词汇的数量是否大于1。
步骤304之后,若是,则执行步骤305。
步骤305、确定所述用户针对每个所述第二词汇的查询时间与当前时间的时间间隔是否大于预设间隔。
其中,上述预设间隔可以但不限于是10天、15天、30天等等,不作具体限定。
步骤305之后,若是,则执行步骤306。
步骤306、确定所述第二词汇中查询次数最多的场景热词的差异值得分最高。
举例来说,上述预设时间间隔为10天,上述目标场景关联词为“阿删”,上述目标场景热词集合为场景热词集合B,场景热词集合B中存在4个与“阿删”的拼音完全相同的第一词汇“阿山”、“阿珊”、“阿杉”、“阿姗”,用户对“阿珊”的查询时间距离当前时间为11天,用户对“阿姗”的查询时间距离当前时间为12天,用户对“阿珊”的查询次数为5次,用户对“阿姗”的查询次数为1次,未有用户对“阿山”和“阿杉”的查询记录。基于上述获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程,首先,确定出场景热词集合B中存在与“阿删”的拼音完全相同的“阿山”、“阿珊”、“阿杉”、“阿姗”,再确定出“阿山”、“阿珊”、“阿杉”、“阿姗”的数量4大于1,之后,确定出所述用户曾经针对“阿珊”进行过查询,所述用户曾经针对“阿姗”也进行过查询,然后,确定出被查询过的“阿珊”、“阿姗”的数量2大于1,接着,确定出上述用户对“阿珊”的查询时间距离当前时间11天大于10天,上述用户对“阿姗”的查询时间距离当前时间12天大于10天,则确定“阿珊”、“阿姗”中查询次数最多的“阿珊”的差异值得分最高。示例性的,结合具体的应用场景,请参阅图3b,图3b是本申请实施例提供的第一种服务器与终端设备交互的示意图,服务器向用户提问:请问需要什么帮助;若终端设备获取到用户输入的目标语音信息为:我想看阿删的小说;服务器基于上述流程得到第二文本“我想看阿珊的小说”,根据第二文本确定用户的意图为想看阿珊的小说,向终端设备推送第一页面,该第一页面包括阿珊的小说的网址链接www.******.com,以及类似“请点击以下网址获取阿珊的小说:”的用户操作提示信息,优选的,可对用户操作提示信息中的目标场景热词“阿珊”进行突出显示,如加粗、加深颜色等;终端设备显示该第一页面;用户点击该第一页面中的“www.******.com”获取阿珊的小说进行阅读。
作为一种可选的流程分支,所述流程A还包括步骤305之后,若否,则执行步骤307。
步骤307、确定所述第二词汇中查询时间与当前时间的时间间隔最短的场景热词的差异值得分最高。
举例来说,上述预设时间间隔为5天,上述目标场景关联词为“阿山”,上述目标场景热词集合为场景热词集合A,场景热词集合A中存在3个与“阿山”的拼音完全相同的第一词汇“阿山”、“阿珊”、“阿姗”,用户对“阿山”的查询时间距离当前时间为3天,用户对“阿珊”的查询时间距离当前时间为4天,用户对“阿姗”的查询时间距离当前时间为7天。基于上述获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程,首先,确定出场景热词集合A中存在与“阿山”的拼音完全相同的“阿山”、“阿珊”、“阿姗”,再确定出“阿山”、“阿珊”、“阿姗”的数量3大于1,之后,确定出上述用户曾经针对“阿山”、“阿珊”、“阿姗”三者都分别进行过查询,然后,确定出被查询过的“阿山”、“阿珊”、“阿姗”的数量3大于1,接着,确定出上述用户对“阿山”的查询时间距离当前时间3天小于5天,上述用户对“阿珊”的查询时间距离当前时间为4天小于5天,则确定“阿山”、“阿珊”中查询时间与当前时间的时间间隔最短的“阿山”的差异值得分最高。示例性的,结合具体的应用场景,服务器向用户提问:请问需要什么服务,若终端设备获取到用户输入的目标语音信息为:我想听阿山的歌,服务器基于上述流程得到第二文本“我想听阿山的歌”,根据第二文本确定后续的回复为:即将为您播放阿山的歌,同时,服务器会向终端设备推送阿山的歌,以便于终端设备播放阿山的歌。
作为另一种可选的流程分支,所述流程A还包括步骤302之后,若所述第一词汇的数量等于1,则确定所述第一词汇的差异值得分最高。
举例来说,上述目标场景关联词为“阿删”,上述目标场景热词集合为场景热词集合C,场景热词集合C中存在1个与“阿删”的拼音完全相同的第一词汇“阿姗”。基于上述获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程,首先,确定场景热词集合C中存在与“阿删”的拼音完全相同的第一词汇“阿姗”,最后确定出“阿姗”的个数1等于1,则确定“阿姗”的差异值得分最高。示例性的,结合具体的应用场景,请参阅图3c,图3c是本申请实施例提供的第二种服务器与终端设备交互的示意图,服务器向用户提问:请问需要什么服务,若终端设备获取到用户输入的目标语音信息为:我想听阿删的歌,服务器基于上述流程得到第二文本“我想听阿姗的歌”,根据第二文本确定用户的意图为想听阿姗的歌,向终端设备推送第二页面,该第二页面包括类似“即将为您播放阿姗的歌”的用户提示信息,优选的,可对用户提示信息中的目标场景热词“阿姗”进行突出显示,如加粗、加深颜色、字体加大等;终端设备显示该第二页面;之后,服务器向终端设备推送阿姗的歌;终端设备播放服务器推送的阿姗的歌。
作为再一种可选的流程分支,所述流程A还包括步骤303之后,若所述用户曾经针对所述第一词汇未进行过查询,则确定所述第一词汇中热度最大的场景热词的差异值得分最高。
举例来说,上述目标场景关联词为“阿珊”,上述目标场景热词集合为场景热词集合D,场景热词集合D中存在两个与“阿珊”的拼音完全相同的第一词汇“阿珊”、“阿姗”,上述用户均未对“阿珊”、“阿姗”进行过查询,“阿珊”的热度为1113,“阿姗”的热度为6001。基于上述获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程,首先,确定出场景热词集合D中存在与“阿珊”的拼音完全相同的“阿珊”、“阿姗”,再确定出“阿珊”、“阿姗”的数量2大于1,之后,确定出上述用户曾经未针对“阿珊”进行过查询,也未针对“阿姗”进行过查询,则确定“阿珊”和“阿姗”中热度最大的“阿姗”的差异值得分最高。示例性的,结合具体的应用场景,请参阅图3d,图3d是本申请实施例提供的第三种服务器与终端设备交互的示意图,终端设备获取到用户输入的目标语音信息为:有阿珊演的电视剧吗,服务器基于上述流程得到第二文本“有阿姗演的电视剧吗”,根据第二文本确定用户的意图为想看阿姗演的电视剧,向终端设备推送第三页面,该第三页面包括类似“是否播放阿姗演的电视剧”的用户询问信息以及第一按钮“是”和第二按钮“否”,并对用户提示信息中的目标场景热词“阿姗”进行字体加大的突出显示;终端设备显示该第三页面;之后,若用户点击按钮第一按钮“是”,服务器向终端设备推送阿姗演的电视剧。
作为又一种可选的流程分支,所述流程A还包括步骤304之后,若所述第二词汇的数量等于1,则确定所述第二词汇的差异值得分最高。
举例来说,上述目标场景关联词为“阿山”,上述目标场景热词集合为场景热词集合E,场景热词集合E中存在5个与“阿山”的拼音完全相同的第一词汇“阿山”、“阿珊”、“阿姗”、“阿杉”、“阿衫”,上述用户曾经只针对“阿姗”进行过查询。基于上述获取目标场景关联词与目标场景热词集合中的场景热词的差异值得分的流程,首先,确定出场景热词集合E中存在与“阿山”的拼音完全相同的“阿山”、“阿珊”、“阿姗”、“阿杉”、“阿衫”,再确定出“阿山”、“阿珊”、“阿姗”、“阿杉”、“阿衫”的数量5大于1,之后,确定出上述用户曾经针对“阿姗”进行过查询,最后,确定出被查询过的第二词汇“阿姗”的数量1等于1,则确定“阿姗”的差异值得分最高。示例性的,结合具体的应用场景,请参阅图3e,图3e是本申请实施例提供的第四种服务器与终端设备交互的示意图,若终端设备获取到用户输入的目标语音信息为:阿山有什么代言;服务器基于上述流程得到第二文本“阿姗有什么代言”,并根据第二文本确定用户的意图为想了解阿姗的代言,由此向终端设备推送第四页面,该第四页面包括阿姗的代言信息;终端设备显示该第四页面方便用户查看阿山的代言。
作为又一种可选的流程分支,所述流程A还包括步骤301之后,若不存在所述第一词汇,则对所述目标场景关联词的拼音进行拼音替换,得到替换后的拼音;以及,将所述替换后的拼音与所述目标场景热词集合中的场景热词进行比对,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分。
举例来说,上述目标场景关联词为“阿三”,上述目标场景热词集合为场景热词集
合F,场景热词集合F中不存在与“阿三”的拼音完全相同的第一词汇。基于上述获取目标场
景关联词与目标场景热词集合中的场景热词的差异值得分的流程,确定出场景热词集合E
中不存在与“阿三”的拼音完全相同第一词汇,则对“阿三”的拼音“”进行拼音替换,得
到替换后的拼音,若,替换后的拼音为“”,将“”与场景热词集合F中的场景热词
进行比对,得到“阿三”与场景热词集合F中的场景热词的差异值得分。
可见,本示例中,服务器能够结合目标场景热词集合中的场景热词和目标场景关联词的拼音、用户对目标场景热词集合中的场景热词的查询时间和查询数量,精确确定目标场景热词集合中差异值得分最高的目标场景热词,提高了目标场景热词的精确程度。
在一个可能的示例中,所述对所述目标场景关联词的拼音进行拼音替换,得到替换后的拼音的实现方式包括但不限于:确定所述用户的籍贯和/或生活地址;确定所述籍贯和/或所述生活地址对应的发音特色;根据所述发音特色确定所述目标场景关联词对应的每个拼音中可进行拼音替换的拼音数量;若所述拼音数量大于1,则根据所述目标场景关联词中需要进行拼音替换的每个字的出现顺序,依次进行拼音替换,得到多个替换拼音。
其中,所述生活地址可以包括所述用户当前居住且居住超过第一预设时间的地址,所述第一预设时间可以一年、两年、半年,等等。示例性的,第一预设时间为两年,若所述用户当前居住在A地,且在A地居住了4年,则A地为所述用户的生活地址。
此外,所述生活地址还可以包括所述用户曾经居住超过第二预设时间的地址,所述第二预设时间可以两年、三年、五年,等等,其中,所述第一预设时间和所述第二预设时间可以相同。优选的,所述第二预设时间大于所述第一预设时间。示例性的,所述第一预设时间为一年,所述第二预设时间为五年,若所述用户当前居住在A地,且在A地居住了两年,所述用户曾经在B地居住了3年,所述用户曾经在C地居住了6年,则A地和C地均为所述用户的生活地址。
可以理解的是,所述生活地址可以是至少一个,所述籍贯和所述生活地址可能存在重合,也可能不存在重合,示例性的,所述用户的籍贯为A地,所述用户的生活地址可能是A地和B地;所述用户的籍贯为A地,所述用户的生活地址可能是B地和C地。
举例来说,上述目标场景关联词为“邹三”,上述目标场景热词集合为场景热词集
合G,场景热词集合G中不存在与“邹三”的拼音完全相同的第一词汇,上述用户的籍贯为A
地,若A地的发音特色为平翘舌不分。具体实现中,确定场景热词集合G中不存在与“邹三”的
拼音完全相同的第一词汇之后,确定上述用户的籍贯A地,确定A地的平翘舌不分的发音特
色1,根据发音特色1确定“邹三”对应的“”和“”均可以进行拼音替换,“”和“”中可进行拼音替换的拼音数量为2,2大于1,则根据“邹三”中需要进行拼音替换的
“邹”和“三”的出现顺序,依次进行拼音替换,得到多个替换拼音“”、“”
以及“”。
再举例来说,上述目标场景关联词为“计期饭”,上述目标场景热词集合为场景热
词集合H,场景热词集合H中不存在与“计期饭”的拼音完全相同的第一词汇,上述用户的生
活地址为B地,若B地的发音特色为将“去”发音为“”,“吃饭”发音为“”。具体实现
中,确定场景热词集合H中不存在与“计期饭”的拼音完全相同的第一词汇之后,确定上述用
户的籍贯B地,确定B地将“去”发音为“”,“吃饭”发音为“qīfàn”的发音特色1,根据该发
音特色1确定“计期饭”对应的“”和“”均可以进行拼音替换,“”和“”中可进行
拼音替换的拼音数量为2,2大于1,则根据“计期饭”中需要进行拼音替换的“计”和“期”的出
现顺序,依次进行拼音替换,得到多个替换拼音“”、“”以及“”。
又举例来说,上述目标场景关联词为“词到的轰”,上述目标场景热词集合为场景
热词集合I,场景热词集合I中不存在与“词到的轰”的拼音完全相同的第一词汇,上述用户
的籍贯为A地,上述用户的生活地址为A地和B地,若A地的发音特色为平翘舌不分,若B地的
发音特色为将“疯”的拼音“”发音为“”。具体实现中,确定场景热词集合I中不
存在与“词到的轰”的拼音完全相同的第一词汇之后,确定上述用户的籍贯A地以及生活地
址A地和B地,确定A地平翘舌不分的发音特色以及将“疯”的拼音“”发音为“”的
发音特色3,根据该发音特色3确定“词到的轰”对应的“”和“”均可以进行拼音替
换,“”和“”中可进行拼音替换的拼音数量为2,2大于1,则根据“词到的轰”中需要
进行拼音替换的“词”和“轰”的出现顺序,依次进行拼音替换,得到多个替换拼音“”、“”以及“”。
可见,本示例中,服务器在对目标场景关联词的拼音进行拼音替换时,能够基于用户的籍贯和/或生活地址,精确确定用户的发音特色,根据发音特色对目标场景关联词对应的每个拼音进行拼音替换得到替换拼音,保证替换拼音符合用户的发音习惯,进而提高了替换拼音的可靠性。
在一个可能的示例中,所述将所述替换后的拼音与所述目标场景热词集合中的场景热词进行比对,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分的实现方式可以包括但不限于:
步骤A1、确定所述多个替换拼音中是否存在与所述目标场景热词集合中的场景热词的拼音完全相同的目标替换拼音。
步骤A1之后,若存在,则执行步骤A2。
步骤A2、确定所述目标替换拼音的数量。
步骤A2之后,若所述目标替换拼音的数量为1个,则执行步骤A3。
步骤A3、确定所述目标替换拼音对应的场景热词的差异值得分最高。
举例来说,上述目标场景关联词为“词到的轰”,上述目标场景热词集合为场景热
词集合I,确定出的“词到的轰”的多个替换拼音为“”、“”以
及“”,其中,“”、“”以及“”
中只有“”与场景热词集合I中的场景热词的拼音完全相同,“”对应的场景热词为“迟到的风”。具体实现中,首先,确定多个替换拼音“”、“”以及“”中存在场景热词集合I的场景
热词的拼音完全相同的“”,接着,基于“”的数量为1,确定
“迟到的风”的差异值得分最高。示例性的,结合具体的应用场景,请参阅图3f,图3f是本申
请实施例提供的第五种服务器与终端设备交互的示意图,终端设备获取到用户输入的目标
语音信息为:播放音乐,词到的轰;服务器基于上述流程得到第二文本“播放音乐,迟到的
风”,根据第二文本确定用户的意图为想听歌曲迟到的风,向终端设备推送第五页面,该第
五页面包括类似“是否播放歌曲迟到的风”的用户询问信息以及第一按钮“是”和第二按钮
“否”,并且用户提示信息中的目标场景热词“迟到的风”相对于其他文字为加粗字体;终端
设备显示该第五页面;之后,若用户点击按钮第一按钮“是”,服务器向终端设备推送歌曲迟
到的风;终端设备播放服务器推送的歌曲迟到的风。
作为一种可选的分支,步骤A1之后,若所述多个替换拼音中不存在与所述目标场景热词集合中的场景热词的拼音完全相同的目标替换拼音,则生成提示信息,并向所述终端设备发送所述提示信息,以提示所述用户未识别所述用户的用户意图。
作为一种可选的分支,步骤A2之后,若所述目标替换拼音的数量为至少两个,则执行步骤A4。
步骤A4、根据所述目标替换拼音中被替换的拼音的数量,和所述用户针对所述目标替换拼音对应的场景热词的使用次数或者热度计算每个所述目标替换拼音对应的场景热词的差异值得分。
举例来说,上述目标场景关联词为“邹三”,上述目标场景热词集合为场景热词集
合G,确定出的“邹三”的多个替换拼音为“”、“”以及“”,其中,“”、“”以及“”中存在“”和“”与场景热词集
合G中的场景热词的拼音完全相同,“”对应的场景热词为“周山”和“周姗”,“”对应的场景热词为“邹姗”。具体实现中,首先,确定多个替换拼音“”、“”以及“”中存在场景热词集合G的场景热词的拼音完全相同的“”和“”,接着,基于“”和“”的数量为2,分别根据“”和“”中被替换的拼音的数量,和所述用户针对“周山”、“周姗”以及“邹
姗”的使用次数或者热度计算“周山”、“周姗”以及“邹姗”的差异值得分。
可见,本示例中,服务器能够结合替换拼音和目标场景热词集合中的场景热词的拼音来确定目标场景热词集合中的场景热词的差异值得分,提升差异值得分获取的便捷性和智能性。
具体的,步骤A4的实现方式可以但不限于包括:
步骤B1、确定所述目标替换拼音中被替换的拼音最少的第一拼音,并确定所述第一拼音的数量是否大于1。
步骤B1之后,若所述第一拼音的数量大于1,则执行步骤B2。
步骤B2、确定所述用户是否使用过所述第一拼音对应的场景热词。
步骤B2之后,若所述用户使用过所述第一拼音对应的场景热词,则执行步骤B3。
步骤B3、确定所述第一拼音对应的场景热词中被所述用户使用过的第三词汇的数量是否大于1。
步骤B3之后,若所述第三词汇的数量大于1,则执行步骤B4。
步骤B4、确定所述第三词汇中使用次数最高或者热度最高的场景热词的差异值得分最高。
举例来说,上述目标场景关联词为“邹三”,“邹三”的拼音为“”,上述目标
场景热词集合为场景热词集合J,“邹三”的多个替换拼音为“”、“”以及“”,其中,“”、“”以及“”中存在上述目标替换拼音“”和“”与场景热词集合J中的场景热词的拼音完全相同,确定出“”和“”的数量为2,“”对应的场景热词为“周三”,“”对
应的场景热词为“邹姗”和“邹山”,所述用户使用过两次“周三”,所述用户使用过5次“邹
姗”、所述用户使用过11次“邹山”,“周三”的热度为301,“邹姗”的热度为8032,“邹山”的热
度为26。具体实现中,首先,确定出上述目标替换拼音“”和“”中被替换
的拼音最少的第一拼音为“”和“”,接着,确定出第一拼音的个数2大于
1,之后,确定出用户使用过所述第一拼音对应的场景热词中的第三词汇为“周三”、“邹山”
和“邹姗”,基于第三词汇的数量3大于1,确定“周三”、“邹山”和“邹姗”中使用次数最高的
“邹山”的差异值得分最高,或者,确定“周三”、“邹山”和“邹姗”中热度最高的“邹姗”的差异
值得分最高。
作为一种可选的分支,步骤B3之后,若所述第三词汇的数量等于1,则执行步骤B5。
步骤B5、确定所述第三词汇的差异值得分最高。
举例来说,上述目标场景关联词为“邹三”,“邹三”的拼音为“”,上述目标
场景热词集合为场景热词集合K,“邹三”的多个替换拼音为“”、“”以及“”,其中,“”、“”以及“”中存在上述目标替换拼音“”和“”与场景热词集合J中的场景热词的拼音完全相同,确定出“”和“”的数量为2,“”对应的场景热词为“周三”,“”对
应的场景热词为“邹姗”和“邹山”,所述用户使用过11次“邹山”,所述用户未使用过“周三”
和“邹姗”。具体实现中,首先,确定出上述目标替换拼音“”和“”中被替
换的拼音最少的第一拼音为“”和“”,接着,确定出第一拼音的个数2大
于1,之后,确定出用户使用过所述第一拼音对应的场景热词中的第三词汇为“邹山”,基于
第三词汇的数量1等于1,确定“邹姗”、“邹山”和“邹姗”中被用户使用过的“邹山”的差异值
得分最高。
作为另一种可选的分支,步骤B2之后,若所述用户未使用过所述第一拼音对应的场景热词,则执行步骤B6。
步骤B6、确定所述第一拼音对应的场景热词中热度最高的场景热词的差异值得分最高。
举例来说,上述目标场景关联词为“邹三”,“邹三”的拼音为“”,上述目标
场景热词集合为场景热词集合K,“邹三”的多个替换拼音为“”、“”以及“”,其中,“”、“”以及“”中存在上述目标替换拼音“”和“”与场景热词集合J中的场景热词的拼音完全相同,确定出“”和“”的数量为2,“”对应的场景热词为“周三”,“”
对应的场景热词为“邹姗”和“邹山”,所述用户未使用过“周三”、“邹姗”以及“邹山”中任意
一个,“周三”的热度为301,“邹姗”的热度为8032,“邹山”的热度为26。具体实现中,首先,确
定出上述目标替换拼音“”和“”中被替换的拼音最少的第一拼音为“”和“”,接着,确定出第一拼音的个数2大于1,之后,基于用户未使用过
所述第一拼音对应的场景热词“周三”、“邹山”和“邹姗”,确定“周三”、“邹山”和“邹姗”中热
度最高的“邹姗”的差异值得分最高。
作为再一种可选的分支,步骤B1之后,若所述第一拼音的数量等于1,则执行步骤B7。
步骤B7、确定所述第一拼音对应的场景热词的差异值得分最高。
举例来说,上述目标场景关联词为“邹三”,“邹三”的拼音为“”,上述目标
场景热词集合为场景热词集合G,“邹三”的多个替换拼音为“”、“”以及“”,其中,“”、“”以及“”中存在“”和“”与场景热词集合I中的场景热词的拼音完全相同,确定出“”和“”的数量为2,“”对应的场景热词为“周山”和“周姗”,“”对应的
场景热词为“邹姗”。具体实现中,首先,确定出“”和“”中被替换的拼音
最少的第一拼音为“”,接着,基于“”的个数等于1,则确定“”对
应的场景热词“邹姗”的差异值得分最高。
可见,本示例中,服务器能够在目标替换拼音为至少两个时,基于目标替换拼音中被替换的拼音的数量,和用户针对所述目标替换拼音对应的场景热词的使用次数或者热度计算目标替换拼音对应的场景热词的差异值得分,提升场景热词的差异值得分确定的全面性和准确度。
在一个可能的示例中,所述确定所述用户的籍贯和/或生活地址之前,所述方法还包括:获取所述用户的普通话等级;确定所述普通话等级未达到预设等级。
所述预设等级可以是一级乙等,所述预设等级可以是一级甲等,所述预设等级可以是二级甲等,等等。可以根据需要设置所述预设等级。
此外,所述方法还包括:所述获取所述用户的普通话等级之后,若确定出所述普通话等级达到所述预设等级则生成提示信息;向所述终端设备发送所述提示信息,以提示所述用户未识别所述用户的用户意图。
可见,本示例中,服务器在对目标场景关联词的拼音进行拼音替换时,能够基于用户的普通话等级、以及籍贯和/或生活地址,精确确定用户的发音特色,根据发音特色对目标场景关联词对应的每个拼音进行拼音替换,得到替换拼音,保证替换拼音更加符合用户的发音习惯,进而提高了替换拼音的可靠性。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。
与上述所示的实施例一致的,如图4所示,图4是本申请实施例提供的一种语音识别装置的功能单元组成框图。在图4中,语音识别装置400应用于语音识别系统中的服务器,所述语音识别系统包括所述服务器和用户进行语音互动的终端设备,所述服务器包括支持人机语音交互的人机互动引擎,所述语音识别装置400包括:
获取单元401,用于调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及用于对所述目标语音信息进行文字识别,得到第一文本;
场景识别单元402,用于对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型;
场景关联词提取单元403,用于对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容;
场景热词集合查询单元404,用于根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合;
对比单元405,用于将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,所述场景热词为查询热度大于热度阈值的词汇;
第一确定单元406,用于确定所述目标场景热词集合中差异值得分最高的目标场景热词;
替换单元407,用于用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本;
第二确定单元408,用于根据所述第二文本确定所述目标语音信息所表达的用户意图;
服务单元409,用于根据确定出的用户意图执行对应的服务操作。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。
在采用集成的单元的情况下,如图5所示,图5是本申请实施例提供的另一种语音识别装置的功能单元组成框图。在图5中,语音识别装置510包括:处理模块512和通信模块511。
处理模块512用于通过通信模块511调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及,对所述目标语音信息进行文字识别,得到第一文本;对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型;对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容;根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合;将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,所述场景热词为热度大于热度阈值的词汇,所述热度是指词汇在全部用户中的查询热度;确定所述目标场景热词集合中差异值得分最高的目标场景热词;用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本;根据所述第二文本确定所述目标语音信息所表达的用户意图;以及,根据确定出的用户意图执行对应的服务操作。例如,处理模块512执行获取单元401、场景识别单元402、场景关联词提取单元403、场景热词集合查询单元404、对比单元405、第一确定单元406、替换单元407、第二确定单元408以及服务单元409中的部分步骤,和/或用于执行本文所描述的技术的其它过程。通信模块511用于支持语音识别装置510与其他设备之间的交互。如图5所示,语音识别装置510还可以包括存储模块513,存储模块513用于存储语音识别装置510的程序代码和数据。
其中,处理模块512可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块511可以是收发器、RF电路或通信接口等。存储模块513可以是存储器。
其中,上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。上述语音识别装置510均可执行上述图2所示的语音识别方法。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
图6是本申请实施例提供的一种电子设备的结构框图。如图6所示,电子设备600可以包括一个或多个如下部件:处理器601、与处理器601耦合的存储器602,其中存储器602可存储有一个或多个程序,一个或多个程序可以被配置为由一个或多个处理器601执行时实现如上述各实施例描述的方法。其中,电子设备600可以是上述语音识别系统中的服务器。
处理器601可以包括一个或者多个处理核。处理器601利用各种接口和线路连接整个电子设备600内的各个部分,通过运行或执行存储在存储器602内的指令、程序、代码集或指令集,以及调用存储在存储器602内的数据,执行电子设备600的各种功能和处理数据。可选地,处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmble Gate Array,FPGA)、可编程逻辑阵列(ProgrammbleLogicArray,PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、乘客界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器601中,单独通过一块通信芯片进行实现。
存储器602可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器602可用于存储指令、程序、代码、代码集或指令集。存储器602可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据等。
可以理解的是,电子设备600可包括比上述结构框图中更多或更少的结构元件,例如,包括电源模块、物理按键、无线保真 (Wireless Fidelity,WiFi)模块、扬声器、蓝牙模块、传感器等,在此不进行限定。
本申请实施例还提供一种计算机存储介质,其中,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述方法实施例中记载的任一方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例第一方面所述方法的步骤。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、磁碟、光盘、易失性存储器或非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmble ROM,PROM)、可擦除可编程只读存储器(erasble PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM,DR RAM)等各种可以存储程序代码的介质。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。
Claims (9)
1.一种语音识别方法,其特征在于,应用于语音识别系统中的服务器,所述语音识别系统包括所述服务器和用户进行语音互动的终端设备,所述服务器包括支持人机语音交互的人机互动引擎,所述方法包括:
调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及,对所述目标语音信息进行文字识别,得到第一文本;
对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型;
对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容;
根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合;
将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,所述场景热词为热度大于热度阈值的词汇,所述热度是指词汇在全部用户中的查询热度;
确定所述目标场景热词集合中差异值得分最高的目标场景热词;
用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本;
根据所述第二文本确定所述目标语音信息所表达的用户意图;以及,
根据确定出的用户意图执行对应的服务操作;
所述将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,包括:
确定所述目标场景热词集合中是否存在与所述目标场景关联词的拼音完全相同的第一词汇;
若存在,则确定所述第一词汇的数量是否大于1;
若是,则确定所述用户是否曾经针对所述第一词汇进行过查询;
若是,则确定所述第一词汇中被查询过的第二词汇的数量是否大于1;
若是,则确定所述用户针对每个所述第二词汇的查询时间与当前时间的时间间隔是否大于预设间隔;
若是,则确定所述第二词汇中查询次数最多的场景热词的差异值得分最高;
若否,则确定所述第二词汇中查询时间与当前时间的时间间隔最短的场景热词的差异值得分最高。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标场景热词集合中是否存在与所述目标场景关联词的拼音完全相同的第一词汇之后,若不存在所述第一词汇,则对所述目标场景关联词的拼音进行拼音替换,得到替换后的拼音;以及,将所述替换后的拼音与所述目标场景热词集合中的场景热词进行比对,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分;以及,
所述确定所述第一词汇的数量是否大于1之后,若所述第一词汇的数量等于1,则确定所述第一词汇的差异值得分最高;以及,
所述确定所述用户是否曾经针对所述第一词汇进行过查询之后,若所述用户曾经针对所述第一词汇未进行过查询,则确定所述第一词汇中热度最大的场景热词的差异值得分最高;以及,
所述确定所述第一词汇中被查询过的第二词汇的数量是否大于1之后,若所述第二词汇的数量等于1,则确定所述第二词汇的差异值得分最高。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标场景关联词的拼音进行拼音替换,得到替换后的拼音,包括:
确定所述用户的籍贯和/或生活地址;
确定所述籍贯和/或所述生活地址对应的发音特色;
根据所述发音特色确定所述目标场景关联词对应的每个拼音中可进行拼音替换的拼音数量;
若所述拼音数量大于1,则根据所述目标场景关联词中需要进行拼音替换的每个字的出现顺序,依次进行拼音替换,得到多个替换拼音。
4.根据权利要求3所述的方法,其特征在于,所述将所述替换后的拼音与所述目标场景热词集合中的场景热词进行比对,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,包括:
确定所述多个替换拼音中是否存在与所述目标场景热词集合中的场景热词的拼音完全相同的目标替换拼音;
若存在,则确定所述目标替换拼音的数量;
若所述目标替换拼音的数量为1个,则确定所述目标替换拼音对应的场景热词的差异值得分最高;
若所述目标替换拼音的数量为至少两个,则根据所述目标替换拼音中被替换的拼音的数量,和所述用户针对所述目标替换拼音对应的场景热词的使用次数或者热度计算每个所述目标替换拼音对应的场景热词的差异值得分。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标替换拼音中被替换的拼音的数量,和所述用户针对所述目标替换拼音对应的场景热词的使用次数或者热度计算每个所述目标替换拼音对应的场景热词的差异值得分,包括:
确定所述目标替换拼音中被替换的拼音最少的第一拼音,并确定所述第一拼音的数量是否大于1;
若所述第一拼音的数量大于1,则确定所述用户是否使用过所述第一拼音对应的场景热词;
若所述用户使用过所述第一拼音对应的场景热词,则确定所述第一拼音对应的场景热词中被所述用户使用过的第三词汇的数量是否大于1;
若所述第三词汇的数量大于1,则确定所述第三词汇中使用次数最高或者热度最高的场景热词的差异值得分最高;
若所述第三词汇的数量等于1,则确定所述第三词汇的差异值得分最高;
若所述用户未使用过所述第一拼音对应的场景热词,则确定所述第一拼音对应的场景热词中热度最高的场景热词的差异值得分最高;
若所述第一拼音的数量等于1,则确定所述第一拼音对应的场景热词的差异值得分最高。
6.根据权利要求3所述的方法,其特征在于,所述确定所述用户的籍贯和/或生活地址之前,所述方法还包括:
获取所述用户的普通话等级;
确定所述普通话等级未达到预设等级。
7.一种语音识别装置,其特征在于,应用于语音识别系统中的服务器,所述语音识别系统包括所述服务器和用户进行语音互动的终端设备,所述服务器包括支持人机语音交互的人机互动引擎,所述装置包括:
获取单元,用于调用所述人机互动引擎通过所述终端设备与所述用户进行互动,获取所述互动过程中所述用户输入的目标语音信息;以及,对所述目标语音信息进行文字识别,得到第一文本;
场景识别单元,用于对所述第一文本进行场景识别,确定所述第一文本对应的目标服务场景,所述目标服务场景用于表征所述第一文本所表达的需要提供的服务类型;
场景关联词提取单元,用于对所述第一文本进行场景关联词提取,得到所述第一文本对应的目标场景关联词,所述目标场景关联词用于表征所述第一文本所表达的需要提供的所述服务类型的服务内容;
场景热词集合查询单元,用于根据所述目标服务场景进行场景热词集合查询,得到与所述目标服务场景对应的目标场景热词集合;
对比单元,用于将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分,所述场景热词为热度大于热度阈值的词汇,所述热度是指词汇在全部用户中的查询热度;
第一确定单元,用于确定所述目标场景热词集合中差异值得分最高的目标场景热词;
替换单元,用于用所述目标场景热词替换所述第一文本中的目标场景关联词,得到第二文本;
第二确定单元,用于根据所述第二文本确定所述目标语音信息所表达的用户意图;以及,
服务单元,用于根据确定出的用户意图执行对应的服务操作;
在所述将所述目标场景关联词与所述目标场景热词集合中的场景热词进行拼音对比,得到所述目标场景关联词与所述目标场景热词集合中的场景热词的差异值得分方面,所述对比单元具体用于:
确定所述目标场景热词集合中是否存在与所述目标场景关联词的拼音完全相同的第一词汇;
若存在,则确定所述第一词汇的数量是否大于1;
若是,则确定所述用户是否曾经针对所述第一词汇进行过查询;
若是,则确定所述第一词汇中被查询过的第二词汇的数量是否大于1;
若是,则确定所述用户针对每个所述第二词汇的查询时间与当前时间的时间间隔是否大于预设间隔;
若是,则确定所述第二词汇中查询次数最多的场景热词的差异值得分最高;
若否,则确定所述第二词汇中查询时间与当前时间的时间间隔最短的场景热词的差异值得分最高。
8.一种电子设备,其特征在于,包括处理器、存储器以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述方法中的步骤的指令。
9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211487069.2A CN115547337B (zh) | 2022-11-25 | 2022-11-25 | 语音识别方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211487069.2A CN115547337B (zh) | 2022-11-25 | 2022-11-25 | 语音识别方法及相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115547337A CN115547337A (zh) | 2022-12-30 |
CN115547337B true CN115547337B (zh) | 2023-03-03 |
Family
ID=84719741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211487069.2A Active CN115547337B (zh) | 2022-11-25 | 2022-11-25 | 语音识别方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547337B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860823B (zh) * | 2023-03-03 | 2023-05-16 | 深圳市人马互动科技有限公司 | 人机互动问卷答题场景中的数据处理方法及相关产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030699A (zh) * | 2014-10-09 | 2016-10-12 | 谷歌公司 | 多个设备上的热词检测 |
CN109346060A (zh) * | 2018-11-28 | 2019-02-15 | 珂伯特机器人(天津)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109920432A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111292745A (zh) * | 2020-01-23 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别结果的处理方法、装置及电子设备 |
CN113160822A (zh) * | 2021-04-30 | 2021-07-23 | 北京百度网讯科技有限公司 | 语音识别处理方法、装置、电子设备以及存储介质 |
CN113223516A (zh) * | 2021-04-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190100095A (ko) * | 2019-08-08 | 2019-08-28 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN114254660A (zh) * | 2020-09-22 | 2022-03-29 | 北京三星通信技术研究有限公司 | 多模态翻译方法、装置、电子设备及计算机可读存储介质 |
US11749267B2 (en) * | 2020-11-20 | 2023-09-05 | Google Llc | Adapting hotword recognition based on personalized negatives |
-
2022
- 2022-11-25 CN CN202211487069.2A patent/CN115547337B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030699A (zh) * | 2014-10-09 | 2016-10-12 | 谷歌公司 | 多个设备上的热词检测 |
CN109346060A (zh) * | 2018-11-28 | 2019-02-15 | 珂伯特机器人(天津)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109920432A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111292745A (zh) * | 2020-01-23 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别结果的处理方法、装置及电子设备 |
CN113223516A (zh) * | 2021-04-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN113160822A (zh) * | 2021-04-30 | 2021-07-23 | 北京百度网讯科技有限公司 | 语音识别处理方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115547337A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220301566A1 (en) | Contextual voice commands | |
US10417344B2 (en) | Exemplar-based natural language processing | |
CN110069608B (zh) | 一种语音交互的方法、装置、设备和计算机存储介质 | |
US9930167B2 (en) | Messaging application with in-application search functionality | |
US20190147052A1 (en) | Method and apparatus for playing multimedia | |
CN110223695B (zh) | 一种任务创建方法及移动终端 | |
US8170537B1 (en) | Playing local device information over a telephone connection | |
US20110167350A1 (en) | Assist Features For Content Display Device | |
US20120265533A1 (en) | Voice assignment for text-to-speech output | |
KR20140047633A (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
US20240070217A1 (en) | Contextual deep bookmarking | |
CN111383631A (zh) | 一种语音交互方法、装置及系统 | |
CN108108094A (zh) | 一种信息处理方法、终端及计算机可读介质 | |
KR20220052581A (ko) | 검색 질의의 의도를 반영한 검색 결과 제공 방법 및 시스템 | |
AU2006325555B2 (en) | A method and apparatus for accessing a digital file from a collection of digital files | |
CN115547337B (zh) | 语音识别方法及相关产品 | |
CN105912586B (zh) | 一种信息搜索方法及电子设备 | |
KR101567449B1 (ko) | 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법 | |
WO2020038102A1 (zh) | 一种语音播放方法和装置 | |
CN105684012B (zh) | 提供情境信息 | |
CN110503991B (zh) | 语音播报方法、装置、电子设备及存储介质 | |
CN113360127B (zh) | 音频播放方法以及电子设备 | |
CN114630179A (zh) | 音频提取方法和电子设备 | |
JP7562610B2 (ja) | 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム | |
CN110379413B (zh) | 一种语音处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |