CN111897916A - 语音指令识别方法、装置、终端设备及存储介质 - Google Patents
语音指令识别方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN111897916A CN111897916A CN202010722276.6A CN202010722276A CN111897916A CN 111897916 A CN111897916 A CN 111897916A CN 202010722276 A CN202010722276 A CN 202010722276A CN 111897916 A CN111897916 A CN 111897916A
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- input
- information slot
- voice text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 abstract description 22
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000012905 input function Methods 0.000 description 17
- 230000008921 facial expression Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例公开了一种语音指令识别方法、装置、终端设备及存储介质。本发明实施例提供的语音指令识别方法包括识别用户输入的语音指令,生成语音文本;获取所述语音文本的信息槽值;根据所述信息槽值判断是否执行所述语音指令,使得终端设备接收到异常的语音指令时,用户可以方便快捷的停止语音输入。
Description
技术领域
本发明涉及移动通信技术领域,具体涉及一种语音指令识别方法、装置、终端设备及存储介质。
背景技术
ASR(Automatic Speech Recognition,自动语音识别技术)是一种将人的语音转换为文本的技术,应用于各种各样的终端设备中,例如智能手机、笔记本电脑、平板电脑、车载终端等等,随着科学技术的发展和进步,用户对生活的便捷性要求也逐渐提高,越来越多的终端设备具有采集用户的语音,并进行语音识别的功能,终端设备利用麦克风采集用户输入的语音指令,并利用自动语音识别技术将用户输入的语音指令转化为语音文本,便于终端设备根据此语音文本做出相应的系统动作,避免用户利用文字输入或其他操作来控制终端系统做出相应的行为,使得用户可以通过语音来控制终端达到同样的目的,使用户可以更加便捷的控制终端,在对现有技术的研究和实践过程中,本发明的发明人发现,用户进行语音输入时,可能会有嘈杂的背景音,终端可能会接收到许多混乱的语音指令,用户无法方便快捷的关闭终端设备的语音输入功能。
发明内容
本发明实施例提供一种语音指令识别方法、装置、终端设备及存储介质,根据语音文本的所属领域、表达意图和信息槽值判断语音文本是否异常,使得终端设备接收到异常的语音指令时,用户可以方便快捷的停止语音输入。
本发明实施例提供一种语音指令识别方法,包括:
识别用户输入的语音指令,生成语音文本;
获取所述语音文本的信息槽值;
根据所述信息槽值判断是否执行所述语音指令。
可选的,在本发明的一些实施例中,所述获取所述语音文本的信息槽值,包括:
根据所述语音文本的内容确定所属领域和表达意图;
根据所述所属领域和所述表达意图获取所述语音文本的信息槽;
填充所述信息槽,生成信息槽值。
可选的,在本发明的一些实施例中,所述根据所述信息槽值判断是否执行所述语音指令,包括:
根据所述语音文本的所属领域判断是否执行所述语音指令。
可选的,在本发明的一些实施例中,所述根据所述语音文本的所属领域判断是否执行所述语音指令,包括:
确定所述语音文本包括至少两个不同的所属领域,不执行所述语音指令,停止语音输入;
确定所述语音文本包括一所属领域,根据所述语音文本的表达意图判断是否执行所述语音指令。
可选的,在本发明的一些实施例中,所述根据所述表达意图判断所述语音文本是否正常,包括:
确定所述语音文本包括至少两个不同的所述表达意图,不执行所述语音指令,停止语音输入;
确定所述语音文本包括一所述表达意图,根据所述信息槽值判断是否执行所述语音指令。
可选的,在本发明的一些实施例中,所述根据所述信息槽值判断是否执行所述语音指令,包括:
确定所述语音文本包括至少两个不同的所述信息槽值,不执行所述语音指令,停止语音输入;
确定所述语音文本包括一所述信息槽值,执行所述语音指令。
可选的,在本发明的一些实施例中,所述停止语音输入,包括:
增大语音输入的停止按钮。
相应的,本发明实施例还提供一种语音指令识别装置,包括:
识别单元,用于识别用户输入的语音指令,生成语音文本;
获取单元,用于获取所述语音文本的信息槽值;
判断单元,用于根据所述信息槽值判断是否执行所述语音指令。
同样的,本发明实施例还提供一种终端设备,包括:
存储器,用于存储应用程序;
处理器,用于在执行所述应用程序时实现语音指令识别方法任一项的步骤。
此外,本发明实施例还提供一种存储介质,所述存储介质上存储有应用程序,所述应用程序被处理器执行时实现语音指令识别方法任一项的步骤。
本发明实施例提供一种语音指令识别方法,用户输入语音指令,终端设备利用麦克风采集语音指令,并利用自动语音识别技术识别用户输入的语音指令,生成语音文本,终端设备利用NLU技术分析所述语音文本,确定语音文本的所属领域、表达意图和信息槽,并填充信息槽,生成信息槽值,终端先判断语音文本包括的所属领域,若语音文本包括至少两个不同的所述所属领域,确定所述语音文本异常,不执行语音指令,终端会使用户停止语音输入,若语音文本包括一所述所属领域,确定所述语音文本正常,接着终端会判断语音文本包括的表达意图,若语音文本包括至少两个不同的所述表达意图,确定所述语音文本异常,不执行语音指令,终端停止语音输入,若语音文本包括一所述表达意图,确定所述语音文本正常,然后终端会判断语音文本包括的信息槽值,语音文本包括至少两个不同的所述信息槽值,确定所述语音文本异常,不执行语音指令,终端停止语音输入,若语音文本包括一所述信息槽值,确定所述语音文本正常,终端执行此语音文本,语音文本异常时,终端会增大语音输入的停止按钮和/或暂停按钮,或者改变语音输入的停止按钮和/或暂停按钮的位置,将语音输入的停止按钮和/或暂停按钮从终端显示屏幕的边缘位置移动至中间位置,用户可以方便快捷的停止语音输入。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音指令识别场景示意图;
图2是本发明实施例提供的语音指令识别方法的流程图;
图3是本发明实施例提供的语音指令识别方法的另一流程图;
图4是本发明实施例提供的语音指令识别装置的结构示意图;
图5是本发明实施例提供的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音指令识别方法、装置、终端设备及存储介质。其中该装置可以集成在终端中,该终端可以是手机、平板电脑、笔记本电脑、车载终端等设备。
例如,如图1所示,打开终端设备的语音输入功能,终端设备打开麦克风,用户对着终端设备输入语音指令,终端设备利用麦克风采集用户输入的语音指令,然后将此语音指令传输至终端系统的识别单元,利用自动语音识别技术识别此语音指令,将此语音指令转化为语音文本,接着终端设备将此语音文本传输至终端系统的获取单元,利用NLU技术分析所述语音文本,将此语音文本进行分类,从而识别所述语音文本的表达意图和所属领域,确定所述语音文本的信息槽,对此语音文本进行序列标注,填充此语音文本的信息槽,生成信息槽值,最后终端设备将此语音文本传输至终端系统的判断单元,终端先判断语音文本包括的所属领域,若语音文本包括至少两个不同的所述所属领域,确定所述语音文本异常,不执行语音指令,终端会使用户停止语音输入,若语音文本包括一所述所属领域,确定所述语音文本正常,接着终端会判断语音文本包括的表达意图,若语音文本包括至少两个不同的所述表达意图,确定所述语音文本异常,不执行语音指令,终端停止语音输入,若语音文本包括一所述表达意图,确定所述语音文本正常,然后终端会判断语音文本包括的信息槽值,语音文本包括至少两个不同的所述信息槽值,确定所述语音文本异常,不执行语音指令,终端停止语音输入,若语音文本包括一所述信息槽值,确定所述语音文本正常,终端执行此语音文本,语音文本异常时,终端会增大语音输入的停止按钮和/或暂停按钮,或者改变语音输入的停止按钮和/或暂停按钮的位置,将语音输入的停止按钮和/或暂停按钮从终端显示屏幕的边缘位置移动至中间位置,便于用户点击,停止语音输入,若终端系统是利用手势或面部表情来控制语音输入功能停止,则终端设备降低手势或面部表情控制语音输入功能的要求,使得终端设备对停止语音输入功能的手势或面部表情的感应更加灵敏,从而提升了用户停止语音输入功能的便捷性。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从语音指令识别装置的角度进行描述,该语音指令识别装置具体可以集成在终端设备中,该终端设备可以包括笔记本电脑、平板电脑、智能手机以及车载终端等。
一种语音指令识别方法,包括:识别用户输入的语音指令,生成语音文本;获取所述语音文本的信息槽值;根据所述信息槽值判断是否执行所述语音指令。
如图2所示,语音指令识别方法的具体流程如下:
步骤201、识别用户输入的语音指令,生成语音文本。
例如,请一并参阅图3,在具有语音输入功能的终端设备中,用户打开终端设备的语音输入功能,执行步骤301,终端设备打开录音设备,例如,麦克风等,用户对着终端设备输入语音指令,执行步骤302,终端设备利用录音设备采集用户输入的语音指令,执行步骤303,然后终端设备利用自动语音识别技术识别此语音指令,将此语音指令转化为语音文本。
其中,语音指令是终端设备的录音功能打开后,录音设备所采集到的声音,包括用户对终端设备输入的表达自己对终端设备所提要求的话语,例如,今天深圳的天气怎么样,以及用户在输入语音指令时的背景杂音等,语音指令的内容、格式和长短不受限制,用户可以根据实际情况灵活输入。
步骤202、获取所述语音文本的信息槽值。
例如,请一并参阅图3,终端设备获取用户输入的语音文本后,利用NLU技术分析所述语音文本,执行步骤304,获取语音文本的所属领域、表达意图和信息槽,执行步骤305,填充此语音文本的信息槽,生成信息槽值。
其中,NLU(Natural Language Processing,自然语言处理)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Ling uistics)。NLU是人工智能的分支学科,研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
可选的,请一并参阅图3,终端设备利用自然语言处理技术将语音文本进行分类,从而识别所述语音文本的所属领域和表达意图,然后根据所属领域和表达意图确定所述语音文本的信息槽,终端设备对此语音文本进行序列标注,执行步骤305,填充此语音文本的信息槽,生成信息槽值。例如,语音文本为“今天深圳的天气怎么样”,终端设备利用自然语言进行分类之后,识别出该语音文本的所属领域为天气领域,表达意图为询问天气,该语音文本包括的信息槽为日期、地点,对该语音文本进行序列标注的过程为对该语音文本的每一个字确定对应的信息槽,该语音文本中的“今”对应的信息槽为日期,该语音文本中的“天”对应的信息槽为日期,该语音文本中的“深”对应的信息槽为地点,该语音文本中的“圳”对应的信息槽为地点,该语音文本中的“的”没有对应信息槽,该语音文本中的“天”没有对应信息槽,该语音文本中的“气”没有对应信息槽,该语音文本中的“怎”没有对应信息槽,该语音文本中的“么”没有对应信息槽,该语音文本中的“样”没有对应信息槽,从而得出信息槽日期对应的信息槽值为今天,信息槽地点对应的信息槽值为深圳。
步骤203、根据所述信息槽值判断是否执行所述语音指令。
例如,请一并参阅图3,终端设备获取语音文本的所属领域、表达意图、信息槽以及信息槽值后,根据所述表达意图、所述所属领域和所述信息槽值判断语音文本是否异常,执行步骤306,终端设备先判断语音文本的所属领域,若终端设备确定语音文本包括至少两个不同的所属领域,则表明此语音文本异常,执行步骤309,停止语音输入,终端设备增大语音输入的停止按钮和/或暂停按钮,并且可以选择将语音输入的停止按钮和/或暂停按钮从终端设备的显示屏幕的边缘角落移动至中间,便于用户点击,停止语音输入。
可选的,若确定语音文本包括至少两个不同的所属领域,则表明此语音文本异常,若终端设备利用手势或面部表情来控制语音输入功能停止,则终端设备降低手势或面部表情控制语音输入功能的要求,例如,降低手势或面部表情的持续时间或复杂度,使得终端设备对停止语音输入功能的手势或面部表情的感应更加灵敏,便于用户使终端设备停止语音输入。
可选的,请一并参阅图3,当确定语音文本包括一所述所属领域时,终端设备确定所述语音文本正常,执行步骤307,接着终端设备判断语音文本包括的表达意图,若终端设备确定语音文本包括至少两个不同的表达意图,则表明此语音文本异常,执行步骤309,停止语音输入,终端设备增大语音输入的停止按钮和/或暂停按钮,并且可以选择将语音输入的停止按钮和/或暂停按钮从终端设备的显示屏幕的边缘角落移动至中间,便于用户点击,停止语音输入。
可选的,若终端设备确定语音文本包括至少两个不同的表达意图,则表明此语音文本异常,若终端设备利用手势或面部表情来控制语音输入功能停止,则终端设备降低手势或面部表情控制语音输入功能的要求,例如,降低手势或面部表情的持续时间或复杂度,使得终端设备对停止语音输入功能的手势或面部表情的感应更加灵敏,便于用户使终端设备停止语音输入。
可选的,请一并参阅图3,当确定语音文本包括一所述表达意图时,终端设备确定所述语音文本正常,执行步骤308,然后终端设备会判断语音文本包括的信息槽值,若终端设备确定语音文本包括至少两个不同的信息槽值,则表明此语音文本异常,执行步骤309,停止语音输入,终端设备增大语音输入的停止按钮和/或暂停按钮,并且可以选择将语音输入的停止按钮和/或暂停按钮从终端设备的显示屏幕的边缘角落移动至中间,便于用户点击,停止语音输入,否则语音文本正常,执行步骤310,执行此语音指令。
可选的,若终端设备确定语音文本包括至少两个不同的信息槽值,则表明此语音文本异常,若终端设备利用手势或面部表情来控制语音输入功能停止,则终端设备降低手势或面部表情控制语音输入功能的要求,例如,降低手势或面部表情的持续时间或复杂度,使得车载终端对停止语音输入功能的手势或面部表情的感应更加灵敏,便于用户使终端设备停止语音输入。
为了更好地实施以上方法,本发明实施例还可以提供一种语音指令识别装置,该语音指令识别装置具体可以集成在网络设备中,该网络设备可以是终端等设备。
例如,图4所示,该语音指令识别装置可以包括识别单元401、获取单元402和判断单元403,如下:
(1)识别单元401
识别单元401,用于识别用户输入的语音指令,生成语音文本。
例如,用户打开终端设备的语音输入功能,终端设备的识别单元401打开麦克风等录音设备,录音设备采集用户输入的语音指令,识别单元401利用自动语音识别技术识别此语音指令,将此语音指令转化为语音文本。
(2)获取单元402
获取单元402,用于获取所述语音文本的信息槽值。
例如,终端设备获取语音文本后,终端设备的识别单元401将语音文本传输至获取单元402,获取单元402利用NLU技术分析所述语音文本,获取语音文本的所属领域、表达意图、信息槽和信息槽值。
可选的,获取单元402利用自然语言处理技术将语音文本进行分类,从而识别所述语音文本的表达意图和所属领域,并且确定了所述语音文本的信息槽,获取单元402对此语音文本进行序列标注,填充此语音文本的信息槽,生成信息槽值。
(3)判断单元403
判断单元403,用于根据所述信息槽值判断是否执行所述语音指令。
例如,获取单元402将语音文本的表达意图、所属领域、信息槽和信息槽值传输至判断单元403,判断单元403先确定语音文本包括至少两个不同的所属领域,则表明此语音文本异常,终端设备增大语音输入的停止按钮和/或暂停按钮,并且可以选择将语音输入的停止按钮和/或暂停按钮从终端设备的显示屏幕的边缘角落移动至中间,便于用户点击,停止语音输入,若判断单元403确定语音文本包括一所述所属领域,确定所述语音文本正常,接着终端设备会判断语音文本包括的表达意图,若判断单元403确定语音文本包括至少两个不同的所述表达意图,确定所述语音文本异常,终端停止语音输入,若语音文本包括一所述表达意图,确定所述语音文本正常,然后终端设备会判断语音文本包括的信息槽值,若判断单元403确定语音文本包括至少两个不同的所述信息槽值,确定所述语音文本异常,终端停止语音输入,若语音文本包括一所述信息槽值,确定所述语音文本正常,终端执行此语音指令。
可选的,判断单元403确定语音文本包括至少两个不同的所属领域,则表明此语音文本异常,终端设备利用手势或面部表情来控制语音输入功能停止时,则终端设备降低手势或面部表情控制语音输入功能的要求,例如,降低手势或面部表情的持续时间或复杂度,使得车载终端对停止语音输入功能的手势或面部表情的感应更加灵敏,便于用户使终端设备停止语音输入。
相应的,本发明实施例还提供一种终端,如图5所示,该终端可以包括射频(RF,Radio Frequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真(WiFi,Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器508处理;另外,将涉及上行的数据发送给基站。通常,RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路501还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器502可用于存储软件程序以及模块,处理器508通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器508和输入单元503对存储器502的访问。
输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元503可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器508,并能接收处理器508发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元503还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器508以确定触摸事件的类型,随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路506、扬声器,传声器可提供用户与终端之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路506接收后转换为音频数据,再将音频数据输出处理器508处理后,经RF电路501以发送给比如另一终端,或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块507,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器508是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器508可包括一个或多个处理核心;优选的,处理器508可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器508中。
终端还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理系统与处理器508逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器508会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器508来运行存储在存储器502中的应用程序,从而实现各种功能:识别用户输入的语音指令,生成语音文本,获取语音文本的信息槽值,根据所述信息槽值判断是否执行所述语音指令。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本发明实施例所提供的一种语音指令识别方法、装置、终端设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。
Claims (10)
1.一种语音指令识别方法,其特征在于,包括:
识别用户输入的语音指令,生成语音文本;
获取所述语音文本的信息槽值;
根据所述信息槽值判断是否执行所述语音指令。
2.根据权利要求1所述的方法,其特征在于,所述获取所述语音文本的信息槽值,包括:
根据所述语音文本的内容确定所属领域和表达意图;
根据所述所属领域和所述表达意图获取所述语音文本的信息槽;
填充所述信息槽,生成信息槽值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述信息槽值判断是否执行所述语音指令,包括:
根据所述语音文本的所属领域判断是否执行所述语音指令。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音文本的所属领域判断是否执行所述语音指令,包括:
确定所述语音文本包括至少两个不同的所属领域,不执行所述语音指令,停止语音输入;
确定所述语音文本包括一所属领域,根据所述语音文本的表达意图判断是否执行所述语音指令。
5.根据权利要求4所述的方法,其特征在于,所述根据所述表达意图判断所述语音文本是否正常,包括:
确定所述语音文本包括至少两个不同的所述表达意图,不执行所述语音指令,停止语音输入;
确定所述语音文本包括一所述表达意图,根据所述信息槽值判断是否执行所述语音指令。
6.根据权利要求5所述的方法,其特征在于,所述根据所述信息槽值判断是否执行所述语音指令,包括:
确定所述语音文本包括至少两个不同的所述信息槽值,不执行所述语音指令,停止语音输入;
确定所述语音文本包括一所述信息槽值,执行所述语音指令。
7.根据权利要求4-6任一项所述的方法,其特征在于,所述停止语音输入,包括:
增大语音输入的停止按钮。
8.一种语音指令识别装置,其特征在于,包括:
识别单元,用于识别用户输入的语音指令,生成语音文本;
获取单元,用于获取所述语音文本的信息槽值;
判断单元,用于根据所述信息槽值判断是否执行所述语音指令。
9.一种终端设备,其特征在于,包括:
存储器,用于存储应用程序;
处理器,用于在执行所述应用程序时实现如权利要求1至7任一项所述语音指令识别方法中的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有应用程序,所述应用程序被处理器执行时实现如权利要求1至7任一项所述语音指令识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010722276.6A CN111897916B (zh) | 2020-07-24 | 2020-07-24 | 语音指令识别方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010722276.6A CN111897916B (zh) | 2020-07-24 | 2020-07-24 | 语音指令识别方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897916A true CN111897916A (zh) | 2020-11-06 |
CN111897916B CN111897916B (zh) | 2024-03-19 |
Family
ID=73190897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010722276.6A Active CN111897916B (zh) | 2020-07-24 | 2020-07-24 | 语音指令识别方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897916B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463105A (zh) * | 2020-11-10 | 2021-03-09 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN115588432A (zh) * | 2022-11-23 | 2023-01-10 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207453A1 (en) * | 2013-01-22 | 2014-07-24 | Electronics And Telecommunications Research Institute | Method and apparatus for editing voice recognition results in portable device |
CN105206266A (zh) * | 2015-09-01 | 2015-12-30 | 重庆长安汽车股份有限公司 | 基于用户意图猜测的车载语音控制系统及方法 |
CN105320726A (zh) * | 2014-05-30 | 2016-02-10 | 苹果公司 | 降低对手动开始/结束点和触发短语的需求 |
CN109543192A (zh) * | 2018-11-30 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 自然语言解析方法、装置、设备及存储介质 |
CN109616111A (zh) * | 2018-12-24 | 2019-04-12 | 北京恒泰实达科技股份有限公司 | 一种基于语音识别的场景交互控制方法 |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
US20190370385A1 (en) * | 2018-06-04 | 2019-12-05 | International Business Machines Corporation | Generation of domain specific type system |
CN110659970A (zh) * | 2018-06-12 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 基于语音识别的账务信息处理方法、装置和电子设备 |
CN110827816A (zh) * | 2019-11-08 | 2020-02-21 | 杭州依图医疗技术有限公司 | 语音指令识别方法、装置、电子设备及存储介质 |
CN111124121A (zh) * | 2019-12-24 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 语音交互信息处理方法、装置、存储介质和计算机设备 |
CN111261157A (zh) * | 2020-01-03 | 2020-06-09 | 苏州思必驰信息科技有限公司 | 一种短视频的控制方法、装置、设备及存储介质 |
CN111341311A (zh) * | 2020-02-21 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 一种语音对话方法及装置 |
CN111373473A (zh) * | 2018-03-05 | 2020-07-03 | 华为技术有限公司 | 一种电子设备进行语音识别方法及电子设备 |
-
2020
- 2020-07-24 CN CN202010722276.6A patent/CN111897916B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207453A1 (en) * | 2013-01-22 | 2014-07-24 | Electronics And Telecommunications Research Institute | Method and apparatus for editing voice recognition results in portable device |
CN105320726A (zh) * | 2014-05-30 | 2016-02-10 | 苹果公司 | 降低对手动开始/结束点和触发短语的需求 |
CN105206266A (zh) * | 2015-09-01 | 2015-12-30 | 重庆长安汽车股份有限公司 | 基于用户意图猜测的车载语音控制系统及方法 |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN111373473A (zh) * | 2018-03-05 | 2020-07-03 | 华为技术有限公司 | 一种电子设备进行语音识别方法及电子设备 |
US20190370385A1 (en) * | 2018-06-04 | 2019-12-05 | International Business Machines Corporation | Generation of domain specific type system |
CN110659970A (zh) * | 2018-06-12 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 基于语音识别的账务信息处理方法、装置和电子设备 |
CN109543192A (zh) * | 2018-11-30 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 自然语言解析方法、装置、设备及存储介质 |
CN109616111A (zh) * | 2018-12-24 | 2019-04-12 | 北京恒泰实达科技股份有限公司 | 一种基于语音识别的场景交互控制方法 |
CN110827816A (zh) * | 2019-11-08 | 2020-02-21 | 杭州依图医疗技术有限公司 | 语音指令识别方法、装置、电子设备及存储介质 |
CN111124121A (zh) * | 2019-12-24 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 语音交互信息处理方法、装置、存储介质和计算机设备 |
CN111261157A (zh) * | 2020-01-03 | 2020-06-09 | 苏州思必驰信息科技有限公司 | 一种短视频的控制方法、装置、设备及存储介质 |
CN111341311A (zh) * | 2020-02-21 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 一种语音对话方法及装置 |
Non-Patent Citations (2)
Title |
---|
MEHMET BERKEHAN AKÇAY 等: "Speech emotion recognition: Emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers", 《SPEECH COMMUNICATION》, pages 56 - 76 * |
王东升 等: "面向限定领域问答系统的自然语言理解方法综述", 《计算机科学》, pages 1 - 8 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463105A (zh) * | 2020-11-10 | 2021-03-09 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN115588432A (zh) * | 2022-11-23 | 2023-01-10 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111897916B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106293308B (zh) | 一种屏幕解锁方法及装置 | |
CN108712566B (zh) | 一种语音助手唤醒方法及移动终端 | |
US9921735B2 (en) | Apparatuses and methods for inputting a uniform resource locator | |
CN106528545B (zh) | 一种语音信息的处理方法及装置 | |
CN108958606B (zh) | 分屏显示方法、装置、存储介质和电子设备 | |
CN109284144B (zh) | 一种快应用处理方法及移动终端 | |
CN106445596B (zh) | 一种设置项的管理方法及装置 | |
WO2015043200A1 (en) | Method and apparatus for controlling applications and operations on a terminal | |
CN112230877A (zh) | 一种语音操作方法、装置、存储介质及电子设备 | |
CN105022552A (zh) | 一种显示消息列表的方法和装置 | |
CN113393838A (zh) | 语音处理方法、装置、计算机可读存储介质及计算机设备 | |
CN110335629B (zh) | 音频文件的音高识别方法、装置以及存储介质 | |
CN109669662A (zh) | 一种语音输入方法、装置、存储介质及移动终端 | |
US20150088525A1 (en) | Method and apparatus for controlling applications and operations on a terminal | |
CN111897916B (zh) | 语音指令识别方法、装置、终端设备及存储介质 | |
CN109688611B (zh) | 一种频段参数的配置方法、装置、终端和存储介质 | |
CN110688051A (zh) | 一种录屏操作方法、装置、计算机可读存储介质及终端 | |
CN109062643A (zh) | 一种显示界面调整方法、装置及终端 | |
CN111027406B (zh) | 图片识别方法、装置、存储介质及电子设备 | |
CN111580911A (zh) | 一种终端的操作提示方法、装置、存储介质及终端 | |
CN109032482B (zh) | 分屏控制方法、装置、存储介质和电子设备 | |
CN110062412A (zh) | 无线配对方法、系统、存储介质及移动终端 | |
CN112367425B (zh) | 一种音量调节方法、装置及终端 | |
CN115116434A (zh) | 应用实现方法、装置、存储介质及电子设备 | |
CN108446579B (zh) | 一种图形码识别的方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |