CN112052325A - 一种基于动态感知的语音互动方法及装置 - Google Patents
一种基于动态感知的语音互动方法及装置 Download PDFInfo
- Publication number
- CN112052325A CN112052325A CN202010973607.3A CN202010973607A CN112052325A CN 112052325 A CN112052325 A CN 112052325A CN 202010973607 A CN202010973607 A CN 202010973607A CN 112052325 A CN112052325 A CN 112052325A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- obtaining
- instruction
- consumer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008447 perception Effects 0.000 title claims abstract description 39
- 230000001795 light effect Effects 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 238000012795 verification Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于动态感知的语音互动方法及装置,其中,所述方法包括:获得所述智能户外巡游设备的运行状态;判断所述运行状态是否为待机状态;如果为待机状态时,获得第一搜索指令;根据所述第一搜索指令,获得第一预设范围;通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;当存在用户信息时,获得第一播放指令,所述第一播放指令用于所述语音播放器播放第一语音信息,且所述第一语音信息具有第一光效。实现了依据态势感知对情景进行感知、理解和预测,提高了语音交互的效率,实现了更智能、准确的语音交互的技术效果。
Description
技术领域
本发明涉及语音互动方法领域,尤其涉及一种基于动态感知的语音互动方法及装置。
背景技术
语音交互属于人机交互的范畴,是人机交互发展到目前的一种最前沿的交互方式:就是用人类的自然语言给机器下指令,达成自己的目的这一过程。语音交互,主要取决于两点:语音识别,和语义理解。如今智能语音应用的场景非常丰富,并已经成熟应用在众多领域中。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
语音交互的准确性不理想,不能够依据情景进行智能语音交互,语言交互效率低等。
发明内容
本申请实施例通过提供一种基于动态感知的语音互动方法及装置,解决了现有技术中语音交互的准确性不理想,不能够依据情景进行智能语音交互,语音交互效率低等技术问题,实现了依据态势感知对情景进行感知、理解和预测,提高了语音交互的效率,实现了更智能、准确的语音交互的技术效果。
本申请实施例提供了一种基于动态感知的语音互动方法,其中,所述方法包括:获得所述智能户外巡游设备的运行状态;判断所述运行状态是否为待机状态;如果为待机状态时,获得第一搜索指令;根据所述第一搜索指令,获得第一预设范围;通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
第二方面,本申请还提供了一种基于动态感知的语音互动装置,其中,所述装置包括:第一获得单元,所述第一获得单元用于获得所述智能户外巡游设备的运行状态;第一判断单元,所述第一判断单元用于判断所述运行状态是否为待机状态;第二获得单元,所述第二获得单元用于如果为待机状态时,获得第一搜索指令;第三获得单元,所述第三获得单元用于根据所述第一搜索指令,获得第一预设范围;第二判断单元,所述第二判断单元用于通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;第四获得单元,所述第四获得单元用于当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
第三方面,本申请提供了一种基于动态感知的语音互动装置,包括存储器、处理器、及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了通过态势感知,判断所述设备的运行状态,并在待机状态时自动进行范围内用户信息的搜索,当存在用户信息时,获得第一播放指令,所述语音播放器用于播放第一语音信息,且所述第一语音信息具有第一光效。实现了依据态势感知对情景进行感知、理解和预测,提高了语音交互的效率,实现了更智能、准确的语音交互的技能效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例一种基于动态感知的语音互动方法的流程示意图;
图2为本申请实施例一种基于动态感知的语音互动方法中进行消费信息处理的流程示意图;
图3为本申请实施例一种基于动态感知的语音互动方法中获得所述第一消费者的匹配输出语境的流程示意图;
图4为本申请实施例一种基于动态感知的语音互动方法中确定是否继续服务的流程示意图;
图5为本申请实施例一种基于动态感知的语音互动方法中为所述第一消费者进行呈现第一动作信息的流程示意图;
图6为本申请实施例一种基于动态感知的语音互动方法中识别处理所述第一语音信号的流程示意图;
图7为本申请实施例一种基于动态感知的语音互动方法中获得第二视频信息的流程示意图;
图8为本申请实施例一种基于动态感知的语音互动装置的结构示意图;
图9为本申请实施例示例性电子设备的结构示意图。
附图标记说明:第一获得单元11,第一判断单元12,第二获得单元13,第三获得单元14,第二判断单元15,第四获得单元16,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例通过提供一种基于动态感知的语音互动方法及装置,解决了现有技术中语音交互的准确性不理想,不能够依据情景进行智能语音交互,语音交互效率低等技术问题,实现了依据态势感知对情景的感知、理解和预测实现更智能、准确的语音交互的技能效果。下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
语音交互属于人机交互的范畴,是人机交互发展到目前的一种最前沿的交互方式:就是用人类的自然语言给机器下指令,达成自己的目的这一过程。语音交互,主要取决于两点:语音识别,和语义理解。如今智能语音应用的场景非常丰富,并已经成熟应用在众多领域中。但现有技术中还存在语音交互的准确性不理想,不能够依据情景进行智能语音交互,语言交互效率低等技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例提供了一种基于动态感知的语音互动方法,其中,所述方法包括:获得所述智能户外巡游设备的运行状态;判断所述运行状态是否为待机状态;如果为待机状态时,获得第一搜索指令;根据所述第一搜索指令,获得第一预设范围;通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种基于动态感知的语音互动方法及装置,其中,所述方法包括:
步骤S100:获得所述智能户外巡游设备的运行状态;
具体而言,所述智能户外迅游设备通过自身的中央处理器来运行检测自身运行状态信息的指令,所述运行状态包括待机和运行中,若运行状态判断为待机,则进行下一步指令。通过对自身运行状态的判断,为后续进行智能交互奠定了基础。
步骤S200:判断所述运行状态是否为待机状态;
具体而言,可通过自身行驶状态、周围图像采集、语音系统状态等来判断自身运行状态。所述智能户外迅游设备通过自身中央处理器检测到设备为静止状态,语音系统也没有在工作,则可判定所述运行状态为待机状态,为后续进行智能交互奠定了基础。
步骤S300:如果为待机状态时,获得第一搜索指令;
具体而言,所述设备如果为待机状态,则由所述设备的中央处理器自动下达搜索指令,用于搜索用户信息。由所述设备的中央处理器调用设备的图像信息采集装置进行搜索。实现了通过态势感知对周围环境进行感知,并实现相应操作的技术目的。
步骤S400:根据所述第一搜索指令,获得第一预设范围;
具体而言,所述第一搜索指令为搜寻一定范围内的用户信息的指令,所述预设范围为提前预设的所述设备所需要搜寻的范围信息,可以设定一定距离,也可以通过声音传播范围设定。通过获得预设范围信息,实现了智能设备与用户之间能够更准确的进行交互的技术目的。
步骤S500:通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;
具体而言,所述图像采集装置为设备的信息输入端,通过摄像头对所述第一预设范围内进行信息扫描,再将信息发送给中央处理器,由中央处理器对信息进行判断,从而获得所述第一预设范围内是否存在用户信息。通过判断所述第一预设范围内是否存在用户信息,实现了对情景的感知,并为实现更准确的交互奠定了基础。
步骤S600:当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
具体而言,所述第一播放指令用于所述语音播放器播放第一语音信息,当在所述预设范围内搜索到用户信息时,则由中央处理器下达所述第一语音播放指令,通过所述设备的语音播放装置播放预设的语音信息,其中,所述第一语音信息为揽客信息,即当预设范围内检测到存在用户时,此时户外巡游设备将会播放第一语音信息,使得用户能够寻声前来乘坐,例如“欢迎乘坐,有折扣”“帮您快速观光景点”等。且不同的语音指令显示不同的光效,从而达到信息传递更加准确的目的。
如图2所示,为了进行消费信息的处理,申请实施例步骤S500还包括:
步骤S501:获得来自第一消费者的第一语音输入指令;
步骤S502:根据所述第一语音输入指令,开启所述智能户外巡游设备的唤醒程序之后,获得所述第一消费者的第一消费信息;
步骤S503:根据所述第一消费信息,获得第一费用信息及第一支付方式;
步骤S504:获得第二播放指令,其中,所述第二播放指令用于播放第二语音信息,且,所述第二语音信息包括所述第一费用信息和所述第一支付方式,所述第二语音信息具有第二光效;
步骤S505:当所述第一消费者根据所述第一费用信息和所述第一支付方式付费之后,获得第三播放指令,其中,所述第三播放指令用于播放第三语音信息,且,所述第三语音信息具有第三光效。
具体而言,当所述第一搜索范围内不存在用户信息时,则继续回到待机状态,避免费电,一定时间之后再次执行搜寻指令。当所述第一预设范围内存在用户信息时,播放第一语音信息,用于询问用户是否选择乘坐巡游车服务,继而获得来自第一消费者的第一语音输入指令,若所述第一消费者回答“是”,则开启所述智能户外巡游设备的唤醒程序。所述第一消费信息为所述第一消费者在设备的屏幕端输入租车时长、乘坐人数等信息,根据所述第一消费信息,获得第一费用信息及第一支付方式。所述第一费用信息为所述第一消费者乘车所需的费用,所述第一支付方式可以为微信、支付宝、银行卡等,可供用户选择。所述第二语音信息为向用户提示所述第一费用信息及提示用户选择支付方式。所述第二语音信息具有第二光效,用于区别于其他语音信息,所述第三播放信息为用于欢迎用户乘坐、介绍使用方法等语音信息。实现了使语音交互更为智能、准确的技术目的。
如图3所示,为了获得所述第一消费者的匹配输出语境,本申请实施例步骤S501还包括:
步骤S5011a:通过所述图像采集装置,获得所述第一消费者的个人图像信息;
步骤S5012a:根据所述第一语音输入指令,获得所述第一消费者的语音声学特征信息;
步骤S5013a:将所述个人图像信息和所述语音声学特征信息输入第一训练模型,其中,所述第一训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述个人图像信息、所述语音声学特征信息和用来标识消费者的匹配输出语境的标识信息;
步骤S5014a:获得所述第一训练模型的第一输出信息,其中,所述第一输出信息包括所述第一消费者的匹配输出语境;
步骤S5015a:根据所述第一消费者的匹配输出语境,与所述第一消费者进行语音交互。
具体而言,用来标识消费者的匹配输出语境的标识信息具体为依据消费者的性别、年龄从而匹配到的合适的语音信息。如判断所述消费者为小朋友,则可以为用户匹配卡通语音信息,若所述消费者为老年人,则可匹配年迈浑厚的语音信息,若消费者为外国人则可切换成对应的外语信息等。所述训练模型为一机器学习模型,所述机器学习模型能通过大量数据不断的学习,进而不断地修正模型,最终获得满意的经验来处理其他数据。
进一步而言,所述机器模型通过多组训练数据训练获得,所述神经网络模型通过训练数据训练的过程本质上为监督学习的过程。所述多组中的训练数据中的每一组训练数据均包括:所述个人图像信息、所述语音声学特征信息和用来标识消费者的匹配输出语境的标识信息;在获得所述个人图像信息和所述语音声学特征信息的情况下,机器学习模型会输出消费者的匹配输出语境信息,通过标识的所述消费者的匹配输出语境信息来对机器学习模型输出的所述消费者的匹配输出语境信息进行校验,如果输出的所述消费者的匹配输出语境信息同标识的所述消费者的匹配输出语境信息相一致,则本数据监督学习完成,则进行下一组数据监督学习;如果输出的所述消费者的匹配输出语境信息同标识的所述消费者的匹配输出语境信息不一致,则机器学习模型自身进行调整,直到机器学习模型达到预期的准确率后,进行下一组数据的监督学习。通过训练数据使机器学习模型自身不断地修正、优化,通过监督学习的过程来提高机器学习模型处理所述数据的准确性,进而获得准确的消费者的匹配输出语境信息。实现了进行准确、智能的语音交互的技术目的。
如图4所示,为了确定是否继续服务,本申请实施例步骤S502还包括:
步骤S5021:根据所述第一消费信息,获得第一使用时长;
步骤S5022:在所述第一使用时长到来之前预设时间内,获得第四播放指令,其中,所述第四播放指令用于播放第四语音信息;
步骤S5023:根据所述第四语音信息,获得所述第一消费者的第二语音输入指令;
步骤S5024:当所述第二语音输入指令为一续费指令时,则获得所述第一消费者的续费信息之后,为所述第一消费者提供服务;
步骤S5025:当所述第二语音输入指令为一终止指令时,则在所述智能户外巡游设备停靠之后,获得第五播放指令,其中,所述第五播放指令用于播放第五语音信息。
具体而言,所述第一消费信息包括所述第一消费者的订购时长,即所述第一使用时长,在所述第一使用时长到来之前预设时间内,获得第四播放指令,用于播放第四语音信息,所述第四语音信息为提醒用户订购时长即将用尽,并询问用户是否需要续费购买时长。所述第二语音输入指令为用户的回答信息,当所述第二语音输入指令为续费时,则获得所述第一消费者的消费信息,并在所述消费者进行支付之后,继续服务。当所述第二语音输入指令为终止时,在设备停止移动时播放第五语音信息,所述第五语音信息用于提示用户带好随身用品,以及播放预设的欢送语等。实现了提高语音交互的效率以及语音交互的智能、准确性的技术目的。
如图5所示,为了为所述第一消费者进行呈现第一动作信息,本申请实施例步骤S505还包括:
步骤S5051:获得所述第一消费者的第三语音输入指令;
步骤S5052:获得所述第一消费者的当前环境信息;
步骤S5053:当所述当前环境信息满足第一预设条件时,根据所述第三语音输入指令,获得预设巡游动作列表,其中,所述预设巡游动作列表包括速度信息和动作信息,且所述速度信息与所述动作信息具有一一对应关系;
步骤S5054:获得所述智能户外巡游设备的第一速度信息;
步骤S5055:根据所述第一速度信息,从所述预设巡游动作列表中,确定第一动作信息;
步骤S5056:根据所述第一动作信息,为所述第一消费者进行呈现。
具体而言,所述第一消费者的第三语音输入指令为所述消费者输入的开始巡游的指令,所述第一预设条件为通过获得当前环境信息,分析判断所述巡游车的巡游动作是否会对周围游客造成伤害或产生影响。当所述当前环境信息满足第一预设条件时,则代表可以执行巡游动作,则获得预设巡游动作列表包括速度信息和动作信息,即不同的速度对应不同的动作,且动作可以通过对巡游车搭载智能机器人来实现,也可根据实际需要进行调整,本实施例中不做具体限制。在巡游车移动过程中,智能机器人的动作也会随着速度的不同发生变化。进一步的,所述第一速度信息为巡游车当前的实时行驶速度信息,根据所述第一速度信息,从所述预设巡游动作列表中,确定第一动作信息。所述第一动作信息为符合所述第一速度信息的动作信息,根据所述第一动作信息,为所述第一消费者进行呈现。实现了提高巡游车与游客进行交互的智能性的技术目的。
如图6所示,为了识别处理所述第一语音信号,本申请实施例步骤S501还包括:
步骤S5011b:根据所述第一语音输入指令,获得第一语音信号;
步骤S5012b:判断所述第一语音信号是否满足第二预设条件;
步骤S5013b:如果不满足所述第二预设条件,对所述第一语音信号进行杂音处理;
步骤S5014b:识别处理之后的所述第一语音信号,并开启所述智能户外巡游设备的唤醒程序。
具体而言,所述语音信号为所述巡游设备的中央处理器接收到的语音信息,所述第二预设条件为语音信号是否能够清晰的被设备识别,其中是否包含回声、混响、杂音等。若不满足所述第二预设条件,则由所述设备对声音信号进行滤波处理,使获得的语音信息更为准确、清晰。实现了提高了语音交互的准确性,提升了用户体验的技术效果。
如图7所示,为了获得第二视频信息,本申请实施例步骤S5052还包括:
步骤S50521:判断所述当前环境信息中是否包含人员信息;
步骤S50522:若包含人员信息,判断所述人员信息是否满足第三预设条件;
步骤S50523:若满足所述第三预设条件,则获得第一视频信息;
步骤S50524:将所述第一视频信息显示于显示屏上,其中,所述显示屏安装在所述智能户外巡游设备上;
步骤S50525:若不满足所述第三预设条件,则获得第二视频信息;
步骤S50526:将所述第二视频信息循环显示于所述显示屏上。
具体而言,所述第三预设条件为预设的当前环境中的人员数量阈值信息,当所获取的人员数量信息满足这一阈值,则由设备上的图像采集装置通过伸缩镜头抓捕周围环境视频信息,并实时播放在所述巡游车上所安装的仿古防水显示屏上。若不满足第三预设条件,即周围人数不够多的情况下,则在所述显示屏上循环播放宣传视频。实现了提高语音交互的效率和智能性的技术效果。
进一步而言,为了确保消费者信息处理的准确性,本申请还可以:根据所述第一消费者生成第一验证码,其中,所述第一验证码是与所述第一消费者一一对应的;根据第二消费者和第一验证码生成第二验证码;以此类推,根据所述第N消费者和第N-1验证码生成第N验证码,其中,N为大于1的自然数;将所有消费者和验证码分别复制保存在M台设备上,其中,M为大于1的自然数。将所述第N消费者和第N-1验证码作为第N区块;获得所述第N区块记录时间,所述第N区块记录时间表示第N区块需要记录的时间;根据所述第N区块记录时间,获得所述M台设备中运力最快的第一设备;将第N区块的记录权发送给所述第一设备。当需要调用所述消费者信息数据时,每后一个节点接收前一节点存储的数据后,通过“共识机制”进行校验后保存,通过哈希技术对于每一存储单位进行串接,使得所述消费者数据不易丢失和遭到破坏。通过区块链技术进行消费者信息的存储,保证了信息的安全性和信息处理的高效性。
综上所述,本申请实施例所提供的一种基于动态感知的语音互动方法具有如下技术效果:
1、由于采用了通过态势感知,判断所述设备的运行状态,并在待机状态时自动进行范围内用户信息的搜索,当存在用户信息时,获得第一播放指令,所述语音播放器用于播放第一语音信息,且所述第一语音信息具有第一光效。实现了依据态势感知对情景进行感知、理解和预测,从而实现更智能、准确的语音交互的技能效果。
2、由于采用了将所述个人图像信息和所述语音声学特征输入第一训练模型,从而输出所述消费者的匹配输出语境信息;所述训练模型为一机器学习模型,所述机器学习模型能通过大量数据进行不断的学习,进而不断地修正模型,最终获得满意的经验来处理其他数据;所述多组中的训练数据中的每一组训练数据均包括:所述个人图像信息、所述语音声学特征信息和用来标识消费者的匹配输出语境的标识信息;通过多次训练,从而获得所述消费者的匹配输出语境的准确信息;实现了能够通过个人图像信息、所述语音声学特征来获得准确的消费者的匹配输出语境信息,达到提高语音交互的智能性的技术目的。
3、由于采用了基于区块链的数据信息存储方法,通过对各消费者信息进行分块存储,能够满足数据量较大的数据存储,并提高了数据存储的可靠性,避免整体存储模式下潜在的数据被整体损坏的风险,由于区块链具备的防篡改特性,致使任意一方无法私自对区块链中的存储数据进行篡改,从而有效保证了数据的安全性,提升了信息处理的准确性。
实施例二
基于与前述实施例中一种基于动态感知的语音互动方法同样发明构思,本发明还提供了一种基于动态感知的语音互动装置,如图8所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获得所述智能户外巡游设备的运行状态;
第一判断单元12,所述第一判断单元12用于判断所述运行状态是否为待机状态;
第二获得单元13,所述第二获得单元13用于如果为待机状态时,获得第一搜索指令;
第三获得单元14,所述第三获得单元14用于根据所述第一搜索指令,获得第一预设范围;
第二判断单元15,所述第二判断单元15用于通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;
第四获得单元16,所述第四获得单元16用于当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
进一步的,所述装置还包括:
第五获得单元,所述第五获得单元用于获得来自第一消费者的第一语音输入指令;
第六获得单元,所述第六获得单元用于根据所述第一语音输入指令,开启所述智能户外巡游设备的唤醒程序之后,获得所述第一消费者的第一消费信息;
第七获得单元,所述第七获得单元用于根据所述第一消费信息,获得第一费用信息及第一支付方式;
第八获得单元,所述第八获得单元用于获得第二播放指令,其中,所述第二播放指令用于播放第二语音信息,且,所述第二语音信息包括所述第一费用信息和所述第一支付方式,所述第二语音信息具有第二光效;
第九获得单元,所述第九获得单元用于当所述第一消费者根据所述第一费用信息和所述第一支付方式付费之后,获得第三播放指令,其中,所述第三播放指令用于播放第三语音信息,且,所述第三语音信息具有第三光效。
进一步的,所述装置还包括:
第十获得单元,所述第十获得单元用于通过所述图像采集装置,获得所述第一消费者的个人图像信息;
第十一获得单元,所述第十一获得单元用于根据所述第一语音输入指令,获得所述第一消费者的语音声学特征信息;
第一输入单元,所述第一输入单元用于将所述个人图像信息和所述语音声学特征信息输入第一训练模型,其中,所述第一训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述个人图像信息、所述语音声学特征信息和用来标识消费者的匹配输出语境的标识信息;
第十二获得单元,所述第十二获得单元用于获得所述第一训练模型的第一输出信息,其中,所述第一输出信息包括所述第一消费者的匹配输出语境;
第一交互单元,所述第一交互单元用于根据所述第一消费者的匹配输出语境,与所述第一消费者进行语音交互。
进一步的,所述装置还包括:
第十三获得单元,所述第十三获得单元用于根据所述第一消费信息,获得第一使用时长;
第十四获得单元,所述第十四获得单元用于在所述第一使用时长到来之前预设时间内,获得第四播放指令,其中,所述第四播放指令用于播放第四语音信息;
第十五获得单元,所述第十五获得单元用于根据所述第四语音信息,获得所述第一消费者的第二语音输入指令;
第十六获得单元,所述第十六获得单元用于当所述第二语音输入指令为一续费指令时,则获得所述第一消费者的续费信息之后,为所述第一消费者提供服务;
第十七获得单元,所述第十七获得单元用于当所述第二语音输入指令为一终止指令时,则在所述智能户外巡游设备停靠之后,获得第五播放指令,其中,所述第五播放指令用于播放第五语音信息。
进一步的,所述装置还包括:
第十八获得单元,所述第十八获得单元用于获得所述第一消费者的第三语音输入指令;
第十九获得单元,所述第十九获得单元用于获得所述第一消费者的当前环境信息;
第二十获得单元,所述第二十获得单元用于当所述当前环境信息满足第一预设条件时,根据所述第三语音输入指令,获得预设巡游动作列表,其中,所述预设巡游动作列表包括速度信息和动作信息,且所述速度信息与所述动作信息具有一一对应关系;
第二十一获得单元,所述第二十一获得单元用于获得所述智能户外巡游设备的第一速度信息;
第二十二获得单元,所述第二十二获得单元用于根据所述第一速度信息,从所述预设巡游动作列表中,确定第一动作信息;
第二十三获得单元,所述第二十三获得单元用于根据所述第一动作信息,为所述第一消费者进行呈现。
前述图1实施例一中的一种基于动态感知的语音互动方法的各种变化方式和具体实例同样适用于本实施例的一种基于动态感知的语音互动装置,通过前述对一种基于动态感知的语音互动方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于动态感知的语音互动装置,所以为了说明书的简洁,在此不再详述。
示例性电子设备
下面参考图9来描述本申请实施例的电子设备。
图9图示了根据本申请实施例的电子设备的结构示意图。
基于与前述实施例中一种基于动态感知的语音互动方法的发明构思,本发明还提供一种基于动态感知的语音互动装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于动态感知的语音互动方法的任一方法的步骤。
其中,在图9中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于动态感知的语音互动方法,应用于一智能户外巡游设备,所述智能户外巡游设备具有一图像采集装置和一语音播放器,其中,所述方法包括:
获得所述智能户外巡游设备的运行状态;
判断所述运行状态是否为待机状态;
如果为待机状态时,获得第一搜索指令;
根据所述第一搜索指令,获得第一预设范围;
通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;
当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
2.如权利要求1所述的方法,其中,所述当存在用户信息时,获得第一播放指令之后,所述方法还包括:
获得来自第一消费者的第一语音输入指令;
根据所述第一语音输入指令,开启所述智能户外巡游设备的唤醒程序之后,获得所述第一消费者的第一消费信息;
根据所述第一消费信息,获得第一费用信息及第一支付方式;
获得第二播放指令,其中,所述第二播放指令用于播放第二语音信息,且,所述第二语音信息包括所述第一费用信息和所述第一支付方式,所述第二语音信息具有第二光效;
当所述第一消费者根据所述第一费用信息和所述第一支付方式付费之后,获得第三播放指令,其中,所述第三播放指令用于播放第三语音信息,且,所述第三语音信息具有第三光效。
3.如权利要求2所述的方法,其中,所述获得来自第一消费者的第一语音输入指令之后,所述方法还包括:
通过所述图像采集装置,获得所述第一消费者的个人图像信息;
根据所述第一语音输入指令,获得所述第一消费者的语音声学特征信息;
将所述个人图像信息和所述语音声学特征信息输入第一训练模型,其中,所述第一训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述个人图像信息、所述语音声学特征信息和用来标识消费者的匹配输出语境的标识信息;
获得所述第一训练模型的第一输出信息,其中,所述第一输出信息包括所述第一消费者的匹配输出语境;
根据所述第一消费者的匹配输出语境,与所述第一消费者进行语音交互。
4.如权利要求2所述的方法,其中,所述方法还包括:
根据所述第一消费信息,获得第一使用时长;
在所述第一使用时长到来之前预设时间内,获得第四播放指令,其中,所述第四播放指令用于播放第四语音信息;
根据所述第四语音信息,获得所述第一消费者的第二语音输入指令;
当所述第二语音输入指令为一续费指令时,则获得所述第一消费者的续费信息之后,为所述第一消费者提供服务;
当所述第二语音输入指令为一终止指令时,则在所述智能户外巡游设备停靠之后,获得第五播放指令,其中,所述第五播放指令用于播放第五语音信息。
5.如权利要求2所述的方法,其中,所述当所述第一消费者根据所述第一费用信息和所述第一支付方式付费,获得第三播放指令之后,所述方法还包括:
获得所述第一消费者的第三语音输入指令;
获得所述第一消费者的当前环境信息;
当所述当前环境信息满足第一预设条件时,根据所述第三语音输入指令,获得预设巡游动作列表,其中,所述预设巡游动作列表包括速度信息和动作信息,且所述速度信息与所述动作信息具有一一对应关系;
获得所述智能户外巡游设备的第一速度信息;
根据所述第一速度信息,从所述预设巡游动作列表中,确定第一动作信息;
根据所述第一动作信息,为所述第一消费者进行呈现。
6.如权利要求2所述的方法,其中,所述获得来自第一消费者的第一语音输入指令之后,所述方法还包括:
根据所述第一语音输入指令,获得第一语音信号;
判断所述第一语音信号是否满足第二预设条件;
如果不满足所述第二预设条件,对所述第一语音信号进行杂音处理;
识别处理之后的所述第一语音信号,并开启所述智能户外巡游设备的唤醒程序。
7.如权利要求5所述的方法,其中,所述方法还包括:
判断所述当前环境信息中是否包含人员信息;
若包含人员信息,判断所述人员信息是否满足第三预设条件;
若满足所述第三预设条件,则获得第一视频信息;
将所述第一视频信息显示于显示屏上,其中,所述显示屏安装在所述智能户外巡游设备上;
若不满足所述第三预设条件,则获得第二视频信息;
将所述第二视频信息循环显示于所述显示屏上。
8.一种基于动态感知的语音互动装置,其中,所述装置包括:
第一获得单元,所述第一获得单元用于获得所述智能户外巡游设备的运行状态;
第一判断单元,所述第一判断单元用于判断所述运行状态是否为待机状态;
第二获得单元,所述第二获得单元用于如果为待机状态时,获得第一搜索指令;
第三获得单元,所述第三获得单元用于根据所述第一搜索指令,获得第一预设范围;
第二判断单元,所述第二判断单元用于通过所述图像采集装置,判断所述第一预设范围内是否存在用户信息;
第四获得单元,所述第四获得单元用于当存在用户信息时,获得第一播放指令,其中,所述第一播放指令用于所述语音播放器播放第一语音信息,且,所述第一语音信息具有第一光效。
9.一种基于动态感知的语音互动装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973607.3A CN112052325A (zh) | 2020-09-16 | 2020-09-16 | 一种基于动态感知的语音互动方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973607.3A CN112052325A (zh) | 2020-09-16 | 2020-09-16 | 一种基于动态感知的语音互动方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052325A true CN112052325A (zh) | 2020-12-08 |
Family
ID=73604766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010973607.3A Withdrawn CN112052325A (zh) | 2020-09-16 | 2020-09-16 | 一种基于动态感知的语音互动方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052325A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380374A (zh) * | 2021-05-08 | 2021-09-10 | 荣耀终端有限公司 | 基于运动状态感知的辅助运动方法、电子设备及存储介质 |
-
2020
- 2020-09-16 CN CN202010973607.3A patent/CN112052325A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380374A (zh) * | 2021-05-08 | 2021-09-10 | 荣耀终端有限公司 | 基于运动状态感知的辅助运动方法、电子设备及存储介质 |
CN113380374B (zh) * | 2021-05-08 | 2022-05-13 | 荣耀终端有限公司 | 基于运动状态感知的辅助运动方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
CN109766412B (zh) | 一种基于图像识别的学习内容获取方法及电子设备 | |
CN110175012B (zh) | 技能推荐方法、装置、设备及计算机可读存储介质 | |
CN111078940B (zh) | 图像处理方法、装置、计算机存储介质及电子设备 | |
CN108665234B (zh) | 用户行为激励方法、装置、计算机设备及存储介质 | |
CN107483445A (zh) | 一种静默声纹识别注册方法、装置、服务器和存储介质 | |
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
CN111261151A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN105491126A (zh) | 基于人工智能的服务提供方法及装置 | |
CN109409063A (zh) | 一种信息交互方法、装置、计算机设备和存储介质 | |
CN114528762B (zh) | 一种模型训练方法、装置、设备和存储介质 | |
CN110516760A (zh) | 情境识别方法、装置、终端及计算机可读存储介质 | |
CN117253478A (zh) | 一种语音交互方法和相关装置 | |
CN112948686A (zh) | 位置推荐处理方法及装置 | |
CN111950255B (zh) | 诗词生成方法、装置、设备及存储介质 | |
CN116775815B (zh) | 对话数据的处理方法、装置、电子设备及存储介质 | |
CN112052325A (zh) | 一种基于动态感知的语音互动方法及装置 | |
CN113763925B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
JP2020035223A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN114443938A (zh) | 多媒体信息的处理方法、装置、存储介质和处理器 | |
CN117351952A (zh) | 语音指令交互方法、装置、电子设备及存储介质 | |
CN113011919B (zh) | 识别兴趣对象的方法及装置、推荐方法、介质、电子设备 | |
CN111309230B (zh) | 信息展示方法、装置、电子设备及计算机可读存储介质 | |
CN110263135A (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN115167966A (zh) | 基于歌词的信息提示方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201208 |
|
WW01 | Invention patent application withdrawn after publication |