CN110444206A - 语音交互方法及装置、计算机设备与可读介质 - Google Patents
语音交互方法及装置、计算机设备与可读介质 Download PDFInfo
- Publication number
- CN110444206A CN110444206A CN201910699941.1A CN201910699941A CN110444206A CN 110444206 A CN110444206 A CN 110444206A CN 201910699941 A CN201910699941 A CN 201910699941A CN 110444206 A CN110444206 A CN 110444206A
- Authority
- CN
- China
- Prior art keywords
- phonetic order
- cloud
- user
- needs
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000004044 response Effects 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种语音交互方法及装置、计算机设备与可读介质。其方法包括:接收用户的语音指令;根据预设规则,检测所述语音指令是否需要云端进行处理;若不需要,由本地的控制模块执行所述语音指令,生成并向所述用户反馈响应信息。本发明的技术方案中,智能设备具备一定的计算能力,通过对用户的语音指令进行检测,对于无需云端处理的语音指令,可以直接在智能设备本地来完成,即使在网络环境不稳定的时候,智能设备可以在本地执行语音指令,并及时与用户进行对话,不会造成对话时延,从而能够有效地提高智能设备与用户的对话能力。而且,对于无需云端处理的语音指令,直接在智能设备本地执行,还能够进一步缩短处理时延,增强用户的使用体验。
Description
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种语音交互方法及装置、计算机设备与可读介质。
【背景技术】
基于语义理解的智能对话,目前已经应用于各行各业。这种智能的人机对话的方式既降低了各行业的成本,也提升了沟通的效率,提升了用户体验。在人工智能物联网(Artificial Intelligence&Internet of Things;AIoT)中,已经渗透在多个行业场景中,如医疗器械、智能家居、智慧游戏、智能车载、智能社区/工业领域,作为各大传统行业智能化升级的最佳通道,已成为物联网发展的必然趋势。其中AIoT,即为人工智能(ArtificialIntelligence;AI)技术与物联网(Internet of Things;IoT)在实际应用中的落地融合。
AIoT的落地实现,在【唤醒万物】的场景中,设备与设备间将互联互通,形成数据交互、共享的生态。例如,在智能家居和车联网等场景中,用户可以直接与智能设备进行语音对话的交流。具体过程中,用户对着智能设备发出语音指令,智能设备将用户的音频记录下来,并通过网络发送给云端,由云端来实现语音识别、自然语言理解、语义及对话的处理以及语音合成等工作,然后向智能设备下发用于响应用户的回复话术、音频以及控制指令。由智能设备根据回复话术和音频播放回复语音,并按要求执行控制指令。从实际使用智能设备的用户角度来看,用户希望在跟智能设备进行语音对话交流的时候,智能设备在何时何地都应该是可以响应的,也希望这个响应是快速的,能达到和人之间交流的响应速度自然是最好的。
但是,按照上述现有方案,若智能设备与云端之间出现网络环境不稳定,即使用户所请求的服务,无需云端也能够执行,也会导致智能设备无法与用户进行对话,或者对话的延时较大。
【发明内容】
本发明提供了一种语音交互方法及装置、计算机设备与可读介质,用于提高网络环境不稳定时,智能设备与用户的对话能力,缩短对话时延。
本发明提供一种语音交互方法,所述方法包括:
接收用户的语音指令;
根据预设规则,检测所述语音指令是否需要云端进行处理;
若不需要,由本地的控制模块执行所述语音指令,生成并向所述用户反馈响应信息。
本发明提供一种智能设备,所述智能设备包括:
接收模块,用于接收用户的语音指令;
检测模块,用于根据预设规则,检测所述语音指令是否需要云端进行处理;
控制模块,若所述检测模块确定不需要所述云端处理,在本地执行所述语音指令,生成并向所述用户反馈响应信息。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的语音交互方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语音交互方法。
本发明的语音交互方法及装置、计算机设备与可读介质,为智能设备具备一定的计算能力,通过对用户的语音指令进行检测,对于无需云端处理的语音指令,可以直接在智能设备本地来完成,即使在网络环境不稳定的时候,智能设备可以在本地执行语音指令,并及时与用户进行对话,不会造成对话时延,从而能够有效地提高智能设备与用户的对话能力。而且,对于无需云端处理的语音指令,直接在智能设备本地执行,还能够进一步缩短处理时延,增强用户的使用体验。
【附图说明】
图1为本发明的语音交互方法实施例的流程图。
图2为本发明的智能设备实施例一的结构图。
图3为本发明的智能设备实施例二的结构图。
图4为本发明的计算机设备实施例的结构图。
图5为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的语音交互方法实施例的流程图。如图1所示,本实施例的语音交互方法,具体可以包括如下步骤:
S100、接收用户的语音指令;
本实施例的语音交互方法的执行主体为用于与用户实现人机对话的智能设备。例如,本实施例的语音交互方法可以适用于智能家居以及车联网等场景中。例如,用户可以通过对智能家居产品中的智能音箱、智能家电、智能电灯、智能插线板、扫地机器人等,采用语音交互的方式实现对其进行控制,如开关控制、调节控制以及资讯查询等等。同理,在车联网中,用户可以通过语音交互的方式控制开关空调、开关广播、调节温度、切换电台以及咨询查询等等。在所有的语音交互中,用户发出语音指令,智能设备接收用户的语音指令,并基于用户的语音指令,实现对智能设备的控制。
S101、根据预设规则,检测语音指令是否需要云端进行处理;若不需要,执行步骤S102;否则,若需要,执行步骤S103;
结合上述各种形式的控制,可以分析得出,有些语音指令要实现的控制不需要发送至云端,若为智能设备赋予一定的计算能力,该智能设备也能够自行处理,如开关控制和调节控制。而有些语音指令要实现的控制如资讯查询等,则必须要发送给云端进行处理。基于上述思想,本实施例中,可以根据预设规则,检测语音指令是否需要云端进行处理。而不用像现有技术那样,所有的语音指令统一都发送至云端进行处理,以克服智能设备和云端之间网络状况不好时,智能设备仍然能够提供部分语音交互服务。
例如,本实施例中,该步骤S101根据预设规则,检测语音指令是否需要云端进行处理,具体可以包括如下两种实现方式:
第一种实现方式,可以包括如下步骤:
(a)采用预先训练的意图识别模型,识别语音指令对应的意图;
(b)根据预先设置的意图处理规则和意图,识别语音指令是否需要云端处理。
在第一种实现方式中,可以预先训练一个意图识别模型,该意图识别模型可以识别用户的语音指令的意图。本实施例中,还预先设置有意图处理规则。根据需求,具体可以设置多条意图处理规则。每条意图处理规则中,可以包括意图以及处理该意图的语音指令的执行端。实际场景中,处理意图的语音指令的执行端可以为云端、也可以为智能设备端、还可以为云端+智能设备端共同处理。例如,对于今天天气怎么样之类的资讯查询,需要云端来单独处理;对于智能设备侧的开关控制、音量控制、温度调节控制、电台切换控制等等在智能设备端单独处理即可;对于需要查询带有路况的导航,不仅需要智能设备侧本地的电子地图来支持,还需要从云端获取前方的路况,此时需要云端+智能设备端来共同处理。
具体使用时,将语音指令输入到意图提取模型中,该意图提取模型可以从该语音指令中提取其意图。然后根据预先设置的意图处理规则,可以获取该意图对应的语音指令的执行端,进而可以基于获取到的识别端识别出对应的语音指令是否需要云端处理。
或者本实施例中,意图提取模型也可以基于文字指令训练的。具体地,使用时可以在智能设备侧先对接收到的语音指令进行语音识别,得到对应的文字指令,然后再将文字指令输入至意图提取模型中,由意图提取模型根据文字指令,提取对应的意图。
本实施例中,可以预先采集数条训练数据,每条训练数据中可以包括采集的训练语音指令和对应的已标注的意图。训练时,将每条训练语音指令输入到意图提取模型中,该意图提起模型预测并输出该训练语音指令对应的意图。然后比对预测的意图与标注的意图是否一致,若不一致,调整意图提取模型的参数,使得预测的意图与标注的意图一致。采用数条训练数据,按照上述方式,不断地对意图提取模型进行训练,直至训练次数达到预设的次数阈值、或者再连续的预设次数训练中,预测的意图始终与标注的意图一致,训练结束,确定意图提取模型的参数,进而确定意图提取模型。
本实施例中的训练数据的条数可以达到百万数量级以上,包括的训练数据越多,训练的意图提取模型越准确。
同理,若意图提取模型采用文字指令来实现,对每条训练语音指令进行语音识别,转换为文字指令即可。其余训练方式一样,在此不再赘述。
第二种实现方式,可以包括如下步骤:
(1)对语音指令进行语音识别,获取对应的文字指令;
(2)根据预先设置的规则处理表和文字指令,识别文字指令是否需要云端处理。
与上述第一种实现方式不同的是,本实现方式中,可以预先设置规则处理表,例如该规则处理表中可以设置有文字指令以及文字指令对应的执行端。规则处理表中的文字指令为通过采集现有的所有的语音指令,并进行文字转换得到。其中文字指令对应的执行端与上述第一种实现方式中相同,可以为云端、也可以为智能设备端、还可以为云端+智能设备端共同处理。其余与上述第一种实现方式相同,详细可以参考上述第一种实现方式中的记载,在此不再赘述。
实际应用中可以以择一的方式选择其中一种实现方式来执行。或者,可选地,也可以以第二种实现方式为主,第一种实现方式为辅。具体地,可以先按照第二种实现方式来执行,若第二种实现方式中的规则处理表中没有对应的语音指令对应的文字指令时,再按照第一种实现方式来处理。
S102、由本地的控制模块执行语音指令,生成并向用户反馈响应信息;结束。
本实施例中,可以在智能设备中设置具有计算能力的控制模块,以为智能设备赋予计算能力,使得智能设备能够具有计算能力。这样,智能设备可以通过本地的控制模块对语音指令进行语音识别、自然语言理解和语义分析等等,从而能够识别并进一步执行语音指令。并且还能够生成相应的响应信息;然后向用户反馈该响应信息。
例如,语音指令为打开开关、提高音量、打开车窗、打开电台等等指令,这些类似的语音指令,均可以由智能设备本地的控制模块来识别和执行,并生成相应的响应信息,并发送给用户。本实施例中,生成的响应信息主要用于响应执行结果,例如响应信息中可以包括开关已打开、音量已调高、车窗已打开、电台已打开等响应执行的语音指令的结果。
S103、获取网络信号的强度;
S104、根据预先设置的信号强度识别规则和网络信号的强度,识别网络信号是否强;若网络信号强,执行步骤S105;若网络信号弱,执行步骤S111;
本实施例中,若需要云端处理语音指令时,可以先获取智能设备与云端通信的网络信号的强度。然后基于预先设置的信号强度识别规则,判断网络信号强还是弱。例如,可以设置一个信号强度阈值,大于该信号强度阈值,则认为信号强度强,否则认为信号强度弱。
S105、直接向云端发送语音指令;执行步骤S106;
S106、接收云端发送的反馈信息;执行步骤S107;
若网络信号强,则可以直接向云端发送语音指令,此时,可以按照现有的云端的处理方式,如对语音指令进行语音识别、自然语言理解、语义及对话的处理以及语音合成等工作,然后向智能设备下发用于响应用户的回复话术、音频以及控制指令等反馈信息。
S107、检测语音指令是否还需要本地处理;若还需要,执行步骤S108;若不需要,执行步骤S110;
S108、由本地的控制模块执行语音指令,生成对应的响应信息;
S109、将云端发送的反馈信息和本地返回的响应信息一起融合,返回给用户,结束。
由上述实施例可知,本实施例的语音指令还有可能需要智能设备和云端同时处理。因此,在接收到云端返回的反馈信息后,进一步按照上述步骤S101的同样的检测方式,检测语音指令是否还需要本地处理。若需要,由本地的控制模块执行语音指令,生成对应的响应信息;并将云端发送的反馈信息和本地返回的响应信息一起融合,返回给用户。
S110、向用户返回云端发送的反馈信息,结束。
对于步骤S107若检测到语音指令不需要本地处理,此时,可以直接向用户返回云端发送的反馈信息。例如,用户发出“今天温度多少”的语音指令后,智能设备经过检测并确定该语音指令需要云端来单独处理,在网络信号较好时,直接将该语音指令发送给云端,由云端获取到答案,并返回给智能设备。此时由于仅需要云端来处理,智能设备可以直接向用户返回云端发送的反馈信息。
S111、检测语音指令是否仅需要云端处理;若是,执行步骤S112;否则,执行步骤S113;
S112、生成携带网络异常,无法获取结果的提示信息,并返回给用户,结束;
S113、若语音指令还需要本地执行,由本地的控制模块执行语音指令后返回的响应信息,并返回给用户,结束。
对于网络信号弱的时候,若该语音指令仅需要云端来处理,此时可以直接向用户返回网络异常,无法获取结果的提示信息。而若还需要本地的智能设备执行,此时可以仅由本地的控制模块执行语音指令,生成并向用户返回响应信息。
本实施例的语音交互方法,通过采用上述技术方案,智能设备具备一定的计算能力,通过对用户的语音指令进行检测,对于无需云端处理的语音指令,可以直接在智能设备本地来完成,这样,即使在网络环境不稳定的时候,智能设备可以在本地执行语音指令,并及时与用户进行对话,不会造成对话时延,从而能够有效地提高智能设备与用户的对话能力。而且,对于无需云端处理的语音指令,直接在智能设备本地执行,还能够进一步缩短处理时延,增强用户的使用体验。
图2为本发明的智能设备实施例一的结构图。如图2所示,本实施例的智能设备,具体可以包括:
接收模块10用于接收用户的语音指令;
检测模块11用于根据预设规则,检测接收模块10接收的语音指令是否需要云端进行处理;
控制模块12若检测模块11确定不需要云端处理,在本地执行语音指令,生成并向用户反馈响应信息。
本实施例的智能设备,通过采用上述模块实现语音交互的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图3为本发明的智能设备实施例二的结构图。如图3所示,本实施例的智能设备,在上述图2所述实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
本实施例的智能设备中,检测模块11具体用于:
采用预先训练的意图识别模型,识别语音指令对应的意图;
根据预先设置的意图处理规则和意图,识别语音指令是否需要云端处理。
或者可选地,本实施例的智能设备中,检测模块11具体用于:
对语音指令进行语音识别,获取对应的文字指令;
根据预先设置的规则处理表和文字指令,识别文字指令是否需要云端处理。
如图3所示,进一步可选地,本实施例的智能设备中,还包括获取模块13和发送模块14;
获取模块13用于若检测模块11确定需要云端处理,获取网络信号的强度;
检测模块11还用于根据预先设置的信号强度识别规则和获取模块13获取的网络信号的强度,识别网络信号是否强;
发送模块14用于若检测模块11检测到网络信号强,受检测模块11的触发,直接向云端发送语音指令;
接收模块10还用于接收云端发送的反馈信息。
如图3所示,进一步可选地,本实施例的智能设备中,还包括融合模块15;
检测模块11还用于检测接收模块10接收的语音指令是否还需要本地处理;
控制模块12用于若检测模块11确定还需要本地处理,在本地执行语音指令,生成对应的响应信息;
融合模块15用于将接收模块10接收到的云端发送的反馈信息和控制模块12得到的本地返回的响应信息一起融合,返回给用户;
发送模块14还用于若检测模块11确定不需要本地处理,向用户返回云端发送的反馈信息。
进一步可选地,本实施例的智能设备中:
检测模块11还用于若检测到网络信号弱,检测语音指令是否仅需要云端处理;
控制模块12还用于若检测模块11确定是仅需要云端处理,生成携带网络异常,无法获取结果的提示信息,并返回给用户;
控制模块12用于若检测接收模块10接收的语音指令还需要本地执行,在本地执行语音指令,生成并向用户返回响应信息。
本实施例的智能设备,通过采用上述模块实现语音交互的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的智能设备可以为智能家居、智能车辆网中的任意智能设备,在此不再一一举例赘述。
图4为本发明的计算机设备实施例的结构图。如图4所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1所示实施例的语音交互方法。图4所示实施例中以包括多个处理器30为例。
例如,图5为本发明提供的一种计算机设备的示例图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图5显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图3各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图3各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的语音交互方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的语音交互方法。
本实施例的计算机可读介质可以包括上述图5所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种语音交互方法,其特征在于,所述方法包括:
接收用户的语音指令;
根据预设规则,检测所述语音指令是否需要云端进行处理;
若不需要,由本地的控制模块执行所述语音指令,生成并向所述用户反馈响应信息。
2.根据权利要求1所述的方法,其特征在于,根据预设规则,检测所述语音指令是否需要云端进行处理,包括:
采用预先训练的意图识别模型,识别所述语音指令对应的意图;
根据预先设置的意图处理规则和所述意图,识别所述语音指令是否需要所述云端处理。
3.根据权利要求1所述的方法,其特征在于,根据预设规则,检测所述语音指令是否需要云端进行处理,包括:
对所述语音指令进行语音识别,获取对应的文字指令;
根据预先设置的规则处理表和所述文字指令,识别所述文字指令是否需要所述云端处理。
4.根据权利要求1所述的方法,其特征在于,若需要所述云端处理,所述方法还包括:
获取网络信号的强度;
根据预先设置的信号强度识别规则和所述网络信号的强度,识别所述网络信号是否强;
若所述网络信号强,直接向所述云端发送所述语音指令;
并接收所述云端发送的反馈信息。
5.根据权利要求4所述的方法,其特征在于,并接收所述云端发送的反馈信息之后,所述方法还包括:
检测所述语音指令是否还需要本地处理;
若还需要,由本地的所述控制模块执行所述语音指令,生成对应的所述响应信息;
将所述云端发送的所述反馈信息和本地返回的所述响应信息一起融合,返回给所述用户;
若不需要,向所述用户返回所述云端发送的所述反馈信息。
6.根据权利要求4所述的方法,其特征在于,若所述网络信号弱,所述方法还包括:
检测所述语音指令是否仅需要所述云端处理;
若是,生成携带网络异常,无法获取结果的提示信息,并返回给所述用户;
否则,若所述语音指令还需要本地执行,由本地的所述控制系统执行所述语音指令,生成并向所述用户返回所述响应信息。
7.一种智能设备,其特征在于,所述智能设备包括:
接收模块,用于接收用户的语音指令;
检测模块,用于根据预设规则,检测所述语音指令是否需要云端进行处理;
控制模块,若所述检测模块确定不需要所述云端处理,在本地执行所述语音指令,生成并向所述用户反馈响应信息。
8.根据权利要求7所述的设备,其特征在于,所述检测模块,用于:
采用预先训练的意图识别模型,识别所述语音指令对应的意图;
根据预先设置的意图处理规则和所述意图,识别所述语音指令是否需要所述云端处理。
9.根据权利要求7所述的设备,其特征在于,所述检测模块,用于:
对所述语音指令进行语音识别,获取对应的文字指令;
根据预先设置的规则处理表和所述文字指令,识别所述文字指令是否需要所述云端处理。
10.根据权利要求7所述的设备,其特征在于,所述设备还包括获取模块和发送模块;
所述获取模块,用于若所述检测模块确定需要所述云端处理,获取网络信号的强度;
所述检测模块,还用于根据预先设置的信号强度识别规则和所述网络信号的强度,识别所述网络信号是否强;
所述发送模块,用于若所述网络信号强,直接向所述云端发送所述语音指令;
所述接收模块,还用于接收所述云端发送的反馈信息。
11.根据权利要求10所述的设备,其特征在于,所述设备还包括融合模块;
所述检测模块,还用于检测所述语音指令是否还需要本地处理;
所述控制模块,用于若还需要本地处理,在本地执行所述语音指令,生成对应的所述响应信息;
所述融合模块,用于将所述云端发送的所述反馈信息和本地返回的所述响应信息一起融合,返回给所述用户;
所述发送模块,还用于若不需要本地处理,向所述用户返回所述云端发送的所述反馈信息。
12.根据权利要求10所述的设备,其特征在于:
所述检测模块,还用于若所述网络信号弱,检测所述语音指令是否仅需要所述云端处理;
所述控制模块,还用于若是仅需要所述云端处理,生成携带网络异常,无法获取结果的提示信息,并返回给所述用户;
所述控制模块,用于若所述语音指令还需要本地执行,在本地执行所述语音指令,生成并向所述用户返回所述响应信息。
13.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699941.1A CN110444206A (zh) | 2019-07-31 | 2019-07-31 | 语音交互方法及装置、计算机设备与可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699941.1A CN110444206A (zh) | 2019-07-31 | 2019-07-31 | 语音交互方法及装置、计算机设备与可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110444206A true CN110444206A (zh) | 2019-11-12 |
Family
ID=68432365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910699941.1A Pending CN110444206A (zh) | 2019-07-31 | 2019-07-31 | 语音交互方法及装置、计算机设备与可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444206A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111404998A (zh) * | 2020-02-27 | 2020-07-10 | 北京三快在线科技有限公司 | 语音交互方法、第一电子设备及可读存储介质 |
CN111581919A (zh) * | 2020-04-02 | 2020-08-25 | 联想(北京)有限公司 | 一种任务处理方法及装置 |
CN112309399A (zh) * | 2020-10-30 | 2021-02-02 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112992145A (zh) * | 2021-05-10 | 2021-06-18 | 湖北亿咖通科技有限公司 | 离线在线语义识别仲裁方法、电子设备及存储介质 |
CN113270098A (zh) * | 2021-06-22 | 2021-08-17 | 广州小鹏汽车科技有限公司 | 语音控制方法、车辆、云端和存储介质 |
CN113674742A (zh) * | 2021-08-18 | 2021-11-19 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
CN114005448A (zh) * | 2021-12-29 | 2022-02-01 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、模型训练方法、车辆和存储介质 |
CN114005449A (zh) * | 2021-12-29 | 2022-02-01 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、模型训练方法、车辆和存储介质 |
WO2022143258A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 一种语音交互处理方法及相关装置 |
WO2022217621A1 (zh) * | 2021-04-17 | 2022-10-20 | 华为技术有限公司 | 语音交互的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150331666A1 (en) * | 2014-05-15 | 2015-11-19 | Tyco Safety Products Canada Ltd. | System and Method for Processing Control Commands in a Voice Interactive System |
CN105913847A (zh) * | 2016-06-01 | 2016-08-31 | 北京灵隆科技有限公司 | 语音控制系统、用户端设备、服务器和中央控制单元 |
CN106560892A (zh) * | 2015-09-30 | 2017-04-12 | 深圳光启合众科技有限公司 | 智能机器人及其云端交互方法、云端交互系统 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN106992009A (zh) * | 2017-05-03 | 2017-07-28 | 深圳车盒子科技有限公司 | 车载语音交互方法、系统及计算机可读存储介质 |
CN107430852A (zh) * | 2015-05-27 | 2017-12-01 | 谷歌公司 | 在支持语音的电子设备中对语音输入的在线处理的选择性中止 |
CN107785019A (zh) * | 2017-10-26 | 2018-03-09 | 西安Tcl软件开发有限公司 | 车载设备及其语音识别方法、可读存储介质 |
-
2019
- 2019-07-31 CN CN201910699941.1A patent/CN110444206A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150331666A1 (en) * | 2014-05-15 | 2015-11-19 | Tyco Safety Products Canada Ltd. | System and Method for Processing Control Commands in a Voice Interactive System |
CN107430852A (zh) * | 2015-05-27 | 2017-12-01 | 谷歌公司 | 在支持语音的电子设备中对语音输入的在线处理的选择性中止 |
CN106560892A (zh) * | 2015-09-30 | 2017-04-12 | 深圳光启合众科技有限公司 | 智能机器人及其云端交互方法、云端交互系统 |
CN105913847A (zh) * | 2016-06-01 | 2016-08-31 | 北京灵隆科技有限公司 | 语音控制系统、用户端设备、服务器和中央控制单元 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN106992009A (zh) * | 2017-05-03 | 2017-07-28 | 深圳车盒子科技有限公司 | 车载语音交互方法、系统及计算机可读存储介质 |
CN107785019A (zh) * | 2017-10-26 | 2018-03-09 | 西安Tcl软件开发有限公司 | 车载设备及其语音识别方法、可读存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111404998A (zh) * | 2020-02-27 | 2020-07-10 | 北京三快在线科技有限公司 | 语音交互方法、第一电子设备及可读存储介质 |
CN111581919A (zh) * | 2020-04-02 | 2020-08-25 | 联想(北京)有限公司 | 一种任务处理方法及装置 |
CN111581919B (zh) * | 2020-04-02 | 2023-07-21 | 联想(北京)有限公司 | 一种任务处理方法及装置 |
CN112309399A (zh) * | 2020-10-30 | 2021-02-02 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112309399B (zh) * | 2020-10-30 | 2023-02-24 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
WO2022143258A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 一种语音交互处理方法及相关装置 |
EP4318464A4 (en) * | 2021-04-17 | 2024-05-08 | Huawei Technologies Co., Ltd. | VOICE INTERACTION METHOD AND DEVICE |
CN115500085A (zh) * | 2021-04-17 | 2022-12-20 | 华为技术有限公司 | 语音交互的方法和装置 |
WO2022217621A1 (zh) * | 2021-04-17 | 2022-10-20 | 华为技术有限公司 | 语音交互的方法和装置 |
CN112992145A (zh) * | 2021-05-10 | 2021-06-18 | 湖北亿咖通科技有限公司 | 离线在线语义识别仲裁方法、电子设备及存储介质 |
CN112992145B (zh) * | 2021-05-10 | 2021-08-06 | 湖北亿咖通科技有限公司 | 离线在线语义识别仲裁方法、电子设备及存储介质 |
CN113270098A (zh) * | 2021-06-22 | 2021-08-17 | 广州小鹏汽车科技有限公司 | 语音控制方法、车辆、云端和存储介质 |
CN113674742A (zh) * | 2021-08-18 | 2021-11-19 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
CN114005449A (zh) * | 2021-12-29 | 2022-02-01 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、模型训练方法、车辆和存储介质 |
CN114005448A (zh) * | 2021-12-29 | 2022-02-01 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、模型训练方法、车辆和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444206A (zh) | 语音交互方法及装置、计算机设备与可读介质 | |
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
JP6613347B2 (ja) | 情報をプッシュする方法及び装置 | |
CN107612968B (zh) | 通过智能终端控制其所连接设备的方法、设备与系统 | |
CN108470034B (zh) | 一种智能设备服务提供方法及系统 | |
US11100934B2 (en) | Method and apparatus for voiceprint creation and registration | |
CN108133707A (zh) | 一种内容分享方法及系统 | |
CN108681440A (zh) | 一种智能设备音量控制方法及系统 | |
CN105719649B (zh) | 语音识别方法及装置 | |
CN108683937A (zh) | 智能电视的语音交互反馈方法、系统及计算机可读介质 | |
CN108520743A (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
CN108363556A (zh) | 一种基于语音与增强现实环境交互的方法和系统 | |
CN107478237A (zh) | 实景导航方法、装置、设备及计算机可读存储介质 | |
CN110235132A (zh) | 基于情境感知来提供连续验证的移动装置 | |
CN110248021A (zh) | 一种智能设备音量控制方法及系统 | |
CN108491394A (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN108459510A (zh) | 智能家电的控制方法、设备、系统及计算机可读介质 | |
EP4033483B1 (en) | Method and apparatus for testing vehicle-mounted voice device, electronic device and storage medium | |
CN108564944A (zh) | 智能控制方法、系统、设备及存储介质 | |
CN109872723A (zh) | 基于人工智能的楼宇信息处理方法及装置 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
KR102018480B1 (ko) | 하이브리드 인지재활 시스템 | |
CN108040111A (zh) | 一种支持自然语言交互的装置和方法 | |
CN110110236A (zh) | 一种信息推送方法、装置、设备和存储介质 | |
CN109597996A (zh) | 一种语义解析方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |
|
RJ01 | Rejection of invention patent application after publication |