CN118544367B - 一种智能迎宾接待方法、装置、设备及存储介质 - Google Patents
一种智能迎宾接待方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118544367B CN118544367B CN202411017034.1A CN202411017034A CN118544367B CN 118544367 B CN118544367 B CN 118544367B CN 202411017034 A CN202411017034 A CN 202411017034A CN 118544367 B CN118544367 B CN 118544367B
- Authority
- CN
- China
- Prior art keywords
- visitor
- information
- target
- determining
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008451 emotion Effects 0.000 claims description 61
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008439 repair process Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 210000000887 face Anatomy 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提出一种智能迎宾接待方法、装置、设备及存储介质,智能迎宾接待方法通过采集访客的人脸信息,对人脸信息进行识别处理,确定访客类型,访客类型包括客人、快递员以及物业人员中的至少之一,根据访客类型,匹配个性化接待策略,自动根据人脸信息确定访客类型,然后匹配个性化接待策略,针对性强,有利于减少访客需要进行的操作,省时省力,方便快捷且人性化;在执行个性化接待策略的过程中采集访客的语音数据,对语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略,能够及时对访客的语音数据进行反馈,有利于提高访客的体验。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种智能迎宾接待方法、装置、设备及存储介质。
背景技术
现实生活中,当访客到达访问地点时,通常需要在前台完成人工登记,写上访客的相关信息、目的等等的内容,并且每一个访客都需要前台人员逐一对接,效率低下且需要一定的人力成本。因此,相关技术人员基于此问题,研发了前台机器人,但是现有的前台机器人智能化程度低,其只能通过显示屏显示相关内容,然后所有访客都需要亲在显示屏进行操作,以完成相关的登记或获取指引等目的,对于不熟悉前台机器人的访客来说,费时费力,访客的体验差,因此需要解决方案。
发明内容
本申请实施例提供一种智能迎宾接待方法、装置、设备及存储介质,以解决相关技术存在的至少一个问题,技术方案如下:
第一方面,本申请实施例提供了一种智能迎宾接待的方法,包括:
采集访客的人脸信息;
对所述人脸信息进行识别处理,确定访客类型,所述访客类型包括客人、快递员以及物业人员中的至少之一;
根据所述访客类型,匹配个性化接待策略,并在执行所述个性化接待策略的过程中采集访客的语音数据;
对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略。
在一种实施方式中,所述采集访客的人脸信息包括:
通过摄像头拍摄图像;
对所述图像进行人脸特征提取,确定人脸特征信息;
当所述人脸特征信息包括一个人脸的人脸信息,将所述人脸特征信息作为访客的人脸信息;
当所述人脸特征信息包括多个人脸的人脸信息,确定每一人脸信息占所述图像的比例,当最大比例唯一时,将最大比例对应的人脸信息作为访客的人脸信息,当最大比例不唯一时,分别计算最大比例的人脸信息的中心坐标与所述图像的中心点之间的距离,将所述距离最小的人脸信息作为访客的人脸信息。
在一种实施方式中,所述对所述人脸信息进行识别处理,确定访客类型包括:
将所述人脸信息与人脸数据库中的预存人脸进行匹配;
当匹配成功时,将匹配的预存人脸的类型作为访客类型;
当匹配失败时,在屏幕上显示可选择的访客类型,响应于触摸操作确定选择的访客类型,或者,调整摄像头的焦距以获取访客的人体图像,通过识别模型对所述人体图像进行识别,确定当前衣着特征,根据当前衣着特征与预存的物业人员的第一衣着特征以及快递员的第二衣着特征进行相似度计算,确定访客类型。
在一种实施方式中,所述根据当前衣着特征与物业人员的第一衣着特征以及快递员的第二衣着特征进行相似度计算,确定访客类型包括:
通过相似度算法,计算所述当前衣着特征与预存的所述第一衣着特征的第一相似度,以及计算所述当前衣着特征与预存的所述第二衣着特征的第二相似度;
当所述第一相似度大于或等于相似度阈值,则确定访客类型为物业人员,当所述第二相似度大于或等于相似度阈值,则确定访客类型为快递员,当所述第一相似度小于相似度阈值且所述第二相似度小于相似度阈值,则确定访客类型为客人。
在一种实施方式中,所述根据所述访客类型,匹配个性化接待策略包括:
当访客类型为快递员时,播放寻找快递柜的提示内容并显示快递柜的位置,当快递员到达所述快递柜的位置并基于手机尾号存放物件后,基于手机尾号从通讯录中寻找目标手机号码,并向所述目标手机号码发送待取物件信息或者自动拨打所述目标手机号码,通过文字转语音播放待取物件信息;
当访客类型为物业人员时,播放预先收集的反馈信息,并基于所述反馈信息关联身份ID,显示所述身份ID的联系方式,响应于对所述联系方式的点击指令,建立与所述身份ID对应的人员的通话,所述反馈信息包括报修、咨询、投诉以及建议;
当访客类型为客人时,提示客人出示访问码信息,获取访问码信息,根据所述访问码信息与预先通过小程序收集的访问信息匹配,确定访问对象,根据数据库中所述访问对象的信息,确定所述访问对象所在的目标楼层中的目标区域,根据室内地图生成显示到达所述目标楼层中的目标区域的导航路线并播放导航语音,以及基于所述人脸信息为客人发放门禁权限,供客人通过门禁进入电梯。
在一种实施方式中,所述语音数据包括若干时刻的音频信息;所述对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略包括:
确定第一时刻以及与所述第一时刻相邻的第二时刻,并确定所述第一时刻的音频信息的第一幅值以及所述第二时刻的音频信息第二幅值;
计算幅值加强系数与所述第一幅值的乘积,确定所述第二幅值与所述乘积的差值,得到加强幅值,将所述第二幅值更新为所述加强幅值,将所述第二时刻作为新的第一时刻并确定新的第二时刻,返回所述确定所述第一时刻的音频信息的第一幅值以及所述第二时刻的音频信息第二幅值的步骤,直至若干时刻的音频信息都被更新,得到加强语音数据;
对所述加强语音数据进行分帧处理,得到若干帧加强音频信号,计算每一帧加强音频信号的短时平均幅度,当所述短时平均幅度大于或等于能量阈值,将所述加强语音数据确定为目标语音数据,否则通过声音增强模型对所述加强语音数据进行声音增强,得到目标语音数据;
根据所述目标语音数据计算情感分数,根据情感分数确定情感类型,并根据所述情感类型从语调数据库中匹配目标语调;
将所述目标语音数据转换为文本内容,根据所述文本内容确定目标回答文本;
当访客类型为快递员时,基于预设声音、所述目标语调以及所述目标回答文本合成第一音频,将所述第一音频作为对所述语音数据的回答进行播放;
当访客类型为物业人员时,基于所述身份ID匹配对应人员的第一声音,根据所述第一声音、所述目标语调以及所述目标回答文本合成第二音频,将所述第二音频作为对所述语音数据的回答进行播放;
当访客类型为客人时,基于所述访问对象匹配对应的第二声音,根据所述第二声音、所述目标语调以及所述目标回答文本合成第三音频,将所述第三音频作为对所述语音数据的回答进行播放。
在一种实施方式中,所述根据情感分数确定情感类型包括:
将所述情感分数与若干个分数范围进行比较,将包含所述情感分数的目标分数范围对应的情感作为情感类型;
或者,
从所述人脸信息中提取左眼特征信息、右眼特征信息、左嘴角特征信息以及右嘴角特征信息,根据所述左眼特征信息与所述右眼特征信息确定第一间隔,根据所述左嘴角特征信息与所述右嘴角特征信息确定第二间隔,根据所述第一间隔以及所述第二间隔确定脸部特征分数,根据所述情感分数以及所述脸部特征分数进行加权计算,确定目标分数,将所述目标分数与若干个分数范围进行比较,将包含所述目标分数的目标分数范围对应的情感作为情感类型。
第二方面,本申请实施例提供了一种智能迎宾接待装置,包括:
采集模块,用于采集访客的人脸信息;
确定模块,用于对所述人脸信息进行识别处理,确定访客类型,所述访客类型包括客人、快递员以及物业人员中的至少之一;
匹配模块,用于根据所述访客类型,匹配个性化接待策略,并在执行所述个性化接待策略的过程中采集访客的语音数据;
执行模块,用于对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略。
第三方面,本申请实施例提供了一种电子设备,包括:处理器和存储器,该存储器中存储指令,该指令由该处理器加载并执行,以实现上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被执行时实现上述各方面任一种实施方式中的方法。
上述技术方案中的有益效果至少包括:
通过采集访客的人脸信息,对人脸信息进行识别处理,确定访客类型,访客类型包括客人、快递员以及物业人员中的至少之一,根据访客类型,匹配个性化接待策略,自动根据人脸信息确定访客类型,然后匹配个性化接待策略,针对性强,有利于减少访客需要进行的操作,省时省力,方便快捷且人性化;在执行个性化接待策略的过程中采集访客的语音数据,对语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略,能够及时对访客的语音数据进行反馈,有利于提高访客的体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请一实施例智能迎宾接待方法的步骤流程示意图;
图2为本申请一实施例的智能迎宾接待装置的结构框图;
图3为本申请一实施例的电子设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
参照图1,示出本申请一实施例的智能迎宾接待方法的流程图,该智能迎宾接待方法至少可以包括步骤S100-S400:
S100、采集访客的人脸信息。
S200、对人脸信息进行识别处理,确定访客类型。
需要说明的是,访客类型包括客人、快递员以及物业人员中的至少之一。
S300、根据访客类型,匹配个性化接待策略,并在执行个性化接待策略的过程中采集访客的语音数据。
S400、对语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略。
本申请实施例的智能迎宾接待方法可以通过数字人前台系统执行,数字人前台系统包括但不限于迎宾机器人(以下简称机器人),迎宾机器人可以通过网络与快递柜、门禁、电梯、服务器、电话网络系统实现连接,进行交互。
本申请实施例的技术方案,通过采集访客的人脸信息,对人脸信息进行识别处理,确定访客类型,访客类型包括客人、快递员以及物业人员中的至少之一,根据访客类型,匹配个性化接待策略,自动根据人脸信息确定访客类型,然后匹配个性化接待策略,针对性强,有利于减少访客需要进行的操作,省时省力,方便快捷且人性化;在执行个性化接待策略的过程中采集访客的语音数据,对语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略,能够及时对访客的语音数据进行反馈,有利于提高访客的体验。同时,智能化程度高,有利于节约人力成本。
在一种实施方式中,步骤S100包括步骤S110-S140:
S110、通过摄像头拍摄图像。
可选地,通过机器人上的摄像头,可以进行图像的拍摄。
S120、对图像进行人脸特征提取,确定人脸特征信息。
可选地,机器人中存储有事先训练后的人脸识别模型,将拍摄到的图像输入至人脸识别模型后,即可以进行人脸特征提取,确定人脸特征信息。
S130、当人脸特征信息包括一个人脸的人脸信息,将人脸特征信息作为访客的人脸信息。
S140、当人脸特征信息包括多个人脸的人脸信息,确定每一人脸信息占图像的比例,当最大比例唯一时,将最大比例对应的人脸信息作为访客的人脸信息,当最大比例不唯一时,分别计算最大比例的人脸信息的中心坐标与图像的中心点之间的距离,将距离最小的人脸信息作为访客的人脸信息。
可选地,由于拍摄图像时,图像中可能具有一个或多个人脸,使得提取到的人脸特征信息可能包括一个或者多个人脸的人脸信息,如果人脸特征信息包括一个人脸的人脸信息,直接将人脸特征信息作为访客的人脸信息。而当人脸特征信息包括多个人脸的人脸信息,机器人的处理器会根据每一人脸信息所占的区域尺寸与图像尺寸进行比较,确定每一人脸信息占图像的比例,例如可能有人脸A、人脸B以及人脸C,如果人脸A的比例最大,即最大比例唯一时,将最大比例对应的人脸信息作为访客的人脸信息,即将人脸A对应的人脸信息作为访客的人脸信息;而如果当最大比例不唯一时,例如人脸B以及人脸C都是最大的比例,此时分别计算最大比例的人脸信息的中心坐标与图像的中心点之间的距离,将距离最小的人脸信息作为访客的人脸信息,例如人脸C的距离最小,则人脸C的人脸信息作为访客的人脸信息。需要说明的是,由于越靠近中心说明是访客的可能性越大,而远离中心更大可能是误入到镜头之中。
在一种实施方式中,步骤S200包括步骤S210-S230:
S210、将人脸信息与人脸数据库中的预存人脸进行匹配。
需要说明的是,可以事先在小程序或者系统中录入人脸,然后将录入的人脸存储在人脸数据库中,因此在获取到人脸信息后可以与人脸数据库中的预存人脸进行比较,确定是否匹配。同时,针对每一预存人脸,均录入对应的身份类型,例如快递员(负责当前区域)、物业人员或者某些已经预约或者被邀约的客人。
S220、当匹配成功时,将匹配的预存人脸的类型作为访客类型。
可选地,如果人脸数据库中的存在于人脸信息相同的预存人脸,则匹配成功,此时将匹配的预存人脸的类型作为访客类型。
S230、当匹配失败时,在屏幕上显示可选择的访客类型,响应于触摸操作确定选择的访客类型,或者,调整摄像头的焦距以获取访客的人体图像,通过识别模型对人体图像进行识别,确定当前衣着特征,根据当前衣着特征与预存的物业人员的第一衣着特征以及快递员的第二衣着特征进行相似度计算,确定访客类型。
可选地,如果人脸数据库没有匹配到预存人脸,此时可以在机器人的屏幕上显示可选择的访客类型,如客人、快递员以及物业人员,此时访客可以通过对屏幕进行触摸操作,自主选定访客类型,从而使机器人确定访客类型。
而在其他实施方式中,由于当前是拍摄到的图像是访客的人脸图像,此时机器人可以自动调整摄像头的焦距以获取访客的人体图像,例如包括访客的上半身或者全身,然后通过事先基于大量衣着数据训练好的识别模型,对人体图像进行识别,从而确定当前衣着特征。
然后,根据当前衣着特征与预存的物业人员的第一衣着特征以及快递员的第二衣着特征进行相似度计算,确定访客类型。需要说明的是,机器人连接的数据库除了包括人脸数据库外还具有衣着数据库,衣着数据库中预存有快递员以及物业人员的衣着特征。因此,可以通过相似度算法,计算当前衣着特征与预存的第一衣着特征(即物业人员的衣着特征)的第一相似度,以及计算当前衣着特征与预存的第二衣着特征(即快递员的衣着特征)的第二相似度。当第一相似度大于或等于相似度阈值,则确定访客类型为物业人员,而当第二相似度大于或等于相似度阈值,则确定访客类型为快递员。可以理解的是,当第一相似度小于相似度阈值且第二相似度小于相似度阈值,可以认为衣着数据库中没有预存的比较相似的衣着,此时确定访客类型为客人。
在一种实施方式中,步骤S300中,根据访客类型,匹配个性化接待策略,并在执行个性化接待策略的过程中,通过机器人的麦克风采集访客的语音数据。例如,语音数据可以为一段时间语音数据,可以包括若干时刻的音频信息。
其中,本申请实施例中,基于不同的访客类型,事先配置机器人可以自动执行的个性化接待策略,提高访客接待的效果以及针对性接待,提高访客的体验,步骤S300中的根据访客类型,匹配个性化接待策略,包括步骤S310-S330:
S310、当访客类型为快递员时,播放寻找快递柜的提示内容并显示快递柜的位置,当快递员到达快递柜的位置并基于手机尾号存放物件后,基于手机尾号从通讯录中寻找目标手机号码,并向目标手机号码发送待取物件信息或者自动拨打目标手机号码,通过文字转语音播放待取物件信息。
本申请实施例中,当访客类型为快递员时,机器人可以通过扬声器播放寻找快递柜的提示内容并显示快递柜的位置,供快递员了解到快递柜的位置,便于后续解决快递难以查找、容易滞留的问题;另外,快递员可以通过机器人显示的二维码进行扫码,关注公众号或者进入小程序,此时可以将快递柜的位置以及引导地图在快递员的手机终端上显示,方便查找。而当快递员到达快递柜的位置后,可以基于收件人的手机尾号的输入打开快递柜的柜门进行存放物件,在基于手机尾号存放物件后,机器人的通讯录中存储有事先收集的各个公司员工的名字、手机号等内容,因此机器人可以根据手机尾号从通讯录中寻找目标手机号码,例如基于尾号1913查找到号码131xxxxx1913,则该号码131xxxxx1913即为目标手机号码,此时机器人通过连接的电话网络系统向目标手机号码发送待取物件信息,例如通知物件在快递柜的哪个格子里面,或者通过连接的电话网络系统自动拨打目标手机号码,通过文字转语音播放待取物件信息,例如通知物件在快递柜的哪个格子里面,后续收件人通过手机扫码或者人脸识别,即可以打开柜门,取出快递,方便、快捷。
S320、当访客类型为物业人员时,播放预先收集的反馈信息,并基于反馈信息关联身份ID,显示身份ID的联系方式,响应于对联系方式的点击指令,建立与身份ID对应的人员的通话,反馈信息包括报修、咨询、投诉以及建议。
本申请实施例中,公司的员工可以在其手机终端或者电脑上填写信息,以生成咨询、投诉、报修等等与物业相关的反馈信息,这些反馈信息在数据库中存储,并且反馈信息还可以包括公司的员工的身份ID,例如名字、编号、手机号码等等,机器人可以从数据库中获取到这些反馈信息;或者,公司的员工也可以直接在机器人的屏幕上进行操作,填写信息,以生成报修、咨询、投诉以及建议等等与物业相关的反馈信息。
然后,当访客类型为物业人员时,机器人通过扬声器播放这些预先收集的反馈信息,供物业人员了解情况,而当反馈信息大于数量阈值,可以显示在屏幕上进行展示,物业人员通过触摸选择具体哪一条反馈信息,然后机器人通过扬声器播放所选择的那一条预先收集的反馈信息,并基于反馈信息关联身份ID,从数据库中匹配对应的员工。同时,可以在机器人的屏幕上显示身份ID的联系方式,响应于对联系方式的点击指令,通过电话网络系统建立与身份ID对应的人员的通话,供物业人员直接与该反馈信息的员工对话,更直接地了解情况,效率更高、流程更加简便。
S330、当访客类型为客人时,提示客人出示访问码信息,获取访问码信息,根据访问码信息与预先通过小程序收集的访问信息匹配,确定访问对象,根据数据库中访问对象的信息,确定访问对象所在的目标楼层中的目标区域,根据室内地图生成显示到达目标楼层中的目标区域的导航路线并播放导航语音,以及基于人脸信息为客人发放门禁权限,供客人通过门禁进入电梯。
本申请实施例中,当访客类型为客人时,提示客人出示访问码信息。需要说明的是,访问码信息可以为访客实事先在小程序或者公众号进行预约,预约成功后机器人会打电话给访客进行预约确认,确认后短信通知预约码,即访问码信息中的一种类型;或者,被访人事先在小程序或者公众号进行预约,预约成功后,机器人自动拨打被访人的手机号码进行预约确认,确认后生成邀约码,即访问码信息中的一种类型。然后,通过短信的形式将邀约码发送至客人的手机中。
本申请实施例中,当客人到达现场时,在机器人中输入访问码信息,根据访问码信息与预先通过小程序收集的访问信息匹配,例如访问信息为具体要访问谁即被访人是谁,从而确定访问对象。需要说明的是,本申请实施例的数据库还包括访问对象的信息,根据数据库中访问对象的信息,确定访问对象所在的目标楼层中的目标区域,访问对象的信息包括但不限于访问对象所在位置。例如,访问对象是小明,基于小明的信息可以知道小明是人力资源部的,此时确定人力资源部的位置为13楼左边第一个办公室,此时机器人可以根据事先收集、建模的室内地图生成显示到达目标楼层中的目标区域的导航路线并播放导航语音。另外,基于人脸信息为客人发放门禁权限,供客人通过门禁进入电梯。例如,以上述例子为例,确定访问对象是小明,基于小明的信息可以知道小明是人力资源部的,此时确定人力资源部的位置为13楼左边第一个办公室,然后就可以在室内地图中显示坐电梯到13楼(目标楼层),然后出电梯后往左转,到达人力资源部(目标区域)的导航路线,客人可以通过收集拍摄图片、或者扫码关注二维码或者小程序,从而在客人的手机终端上持续观看导航路线,并收听导航语音,从而自主到达目的地,方便、人性化。
另外,机器人会基于客人的人脸信息为客人发放门禁权限,供客人通过门禁进入电梯,以保证客人能够根据导航路线,一直到达目标区域,找到访问对象小明。
在一种实施方式中,步骤S400包括步骤S410-S480:
S410、确定第一时刻以及与第一时刻相邻的第二时刻,并确定第一时刻的音频信息的第一幅值以及第二时刻的音频信息第二幅值。
本申请实施例中,由于周边环境可能比较吵杂,收集的语音数据可能不清晰,容易导致机器人无法得到访客准确的人声,因此可以通过机器人中预先设置的音频处理模型对语音数据进行处理。可选地,由于语音数据包括若干时刻的音频信息,因此确定语言数据中最早的时刻作为第一时刻,位于第一时刻之后的与第一时刻相邻的为第二时刻,然后确定第一时刻的音频信息的第一幅值d(t)以及第二时刻的音频信息第二幅值d(t+1),t代表当前选择的第一时刻,t+1代表位于第一时刻之后的与第一时刻相邻的第二时刻。
S420、计算幅值加强系数与第一幅值的乘积,确定第二幅值与乘积的差值,得到加强幅值,将第二幅值更新为加强幅值,将第二时刻作为新的第一时刻并确定新的第二时刻,返回确定第一时刻的音频信息的第一幅值以及第二时刻的音频信息第二幅值的步骤,直至若干时刻的音频信息都被更新,得到加强语音数据。
本申请实施例中,可以基于环境情况,动态调整幅值加强系数β,例如间隔一定的时间长度阈值,例如1分钟采集一次环境音频,确定环境音频的幅值平均值,当幅值平均值小于或等于第一幅值阈值,从第一范围中随机选取幅值加强系数β,而当幅值平均值大于第一幅值阈值且小于或等于第一幅值阈值,从第二范围中随机选取幅值加强系数β,当幅值平均值大于第二幅值阈值,从第三母范围中随机选取幅值加强系数β。需要说明的是,第一范围大于第二范围,第二范围大于第三范围,例如第一范围为0.8-0.99,第二范围为0.7-0.8,第三范围为0.6-0.7;在一些实施例中,也可以直接预设幅值加强系数β,不作具体限定。
本申请实施例中,计算幅值加强系数β与第一幅值d(t)的乘积βd(t),确定第二幅值d(t+1)与乘积βd(t)的差值,得到加强幅值D(t+1),即公式为:
D(t+1)=d(t+1) - βd(t)
然后,将第二幅值d(t+1)更新为加强幅值D(t+1),将第二时刻作为新的第一时刻并确定新的第二时刻,返回确定第一时刻的音频信息的第一幅值以及第二时刻的音频信息第二幅值的步骤,即返回步骤S410,直至若干时刻的音频信息都被更新,得到加强语音数据。需要说明的是,基于幅值加强系数的上述公式进行处理,降低低频部分的频谱幅值,对低频的音频信息进行抑制,提高音频信息的高频部分的分辨率,从而有利于机器人得到更加容易识别人声的加强语音数据。
S430、对加强语音数据进行分帧处理,得到若干帧加强音频信号,计算每一帧加强音频信号的短时平均幅度,当短时平均幅度大于或等于能量阈值,将加强语音数据确定为目标语音数据,否则通过声音增强模型对加强语音数据进行声音增强,得到目标语音数据。
本申请实施例中,可以通过汉明窗加窗对加强语音数据进行分帧处理,得到若干帧加强音频信号,计算每一帧加强音频信号的短时平均幅度,公式为:
其中,Na为第a帧加强音频信号的短时平均幅度,Xa(b)为第a帧加强音频信号,每一帧加强音频信号的长度范围为:[0,C],C为常数,根据汉明窗的长度决定,b为加强音频信号中的点索引。
具体地,当短时平均幅度大于或等于能量阈值,将加强语音数据确定为目标语音数据,否则通过声音增强模型进一步对加强语音数据进行声音增强,得到目标语音数据,从而进一步提高语音质量,便于提高识别的正确率。
S440、根据目标语音数据计算情感分数,根据情感分数确定情感类型,并根据情感类型从语调数据库中匹配目标语调。
本申请实施例中,基于包括但不限于声音语调以及语速两个维度,利用事先训练后的情感模型,对目标语音数据进行处理,从而确定情感分数。
本申请实施例中,根据情感分数确定情感类型时,有以下两种方式:
1)、将情感分数与若干个分数范围进行比较,将包含情感分数的目标分数范围对应的情感作为情感类型。例如,情感类型包括但不限于喜悦、中性以及担心,喜悦对应第一分数范围,中性对应第二分数范围,担心对应第三分数范围,第一分数范围大于第二分数范围,第二分数范围大于第三分数范围。
2)、从人脸信息中提取左眼特征信息、右眼特征信息、左嘴角特征信息以及右嘴角特征信息,根据左眼特征信息与右眼特征信息确定第一间隔,即计算左眼和右眼的第一间隔,根据左嘴角特征信息与右嘴角特征信息确定第二间隔,即计算左嘴角与右嘴角的第二间隔。需要说明的是,由于人在处于不同情感时,眼睛和嘴角会有不同的表现,因此基于左眼、右眼的第一间隔,左嘴角与右嘴角的第二间隔,可以进行情感标签的分数设定,例如情感标签包括喜悦、中性以及担心对应的三个分数,然后输入至神经网络中进行训练,确定人脸情感计算模型。因此,在确定第一间隔以及第二间隔后,可以输入至人脸情感计算模型,从而计算确定脸部特征分数。最后,为了更加准确地确定情感类型,根据情感分数以及脸部特征分数进行加权计算,确定目标分数,将目标分数与若干个分数范围进行比较,例如上述的第一分数范围、第二分数范围以及第三分数范围,从而将包含目标分数的目标分数范围对应的情感作为情感类型。需要说明的是,加权计算时,权重参数可以基于实际情况设定。
本申请实施例中,数据库还包括语调数据库,语调数据库中具有不同情感类型对应的语调,因此在确定了情感类型后,可以根据情感类型从语调数据库中匹配目标语调。例如,如果情感类型为喜悦,则匹配兴奋的高语调,响应访客的情感,使访客更加愉悦;如果情感类型为中性,则匹配沉稳的语调;如果情感类型为担心,则匹配鼓励/温柔的语调,缓解访客的情绪。
S450、将目标语音数据转换为文本内容,根据文本内容确定目标回答文本。
可选地,通过TTS技术将目标语音数据转换为文本内容,然后将文本内容输入至大语言模型中,确定目标回答文本。
S460、当访客类型为快递员时,基于预设声音、目标语调以及目标回答文本合成第一音频,将第一音频作为对语音数据的回答进行播放。
本申请实施例中,当访客类型为快递员时,通过语音合成技术,基于预设声音、目标回答文本以及目标语调合成第一音频,将第一音频作为对语音数据的回答进行播放。
S470、当访客类型为物业人员时,基于身份ID匹配对应人员的第一声音,根据第一声音、目标语调以及目标回答文本合成第二音频,将第二音频作为对语音数据的回答进行播放。
本申请实施例中,事先配置有声音库,里面设置了若干个预设声音以及员工的声音。当访客类型为物业人员时,例如物业人员询问反馈信息的相关情况时,为了更真实地表现出反馈,基于身份ID匹配对应人员的第一声音,然后通过语音合成技术,根据第一声音、目标语调以及目标回答文本合成第二音频,将第二音频作为对语音数据的回答进行播放。
S480、当访客类型为客人时,基于访问对象匹配对应的第二声音,根据第二声音、目标语调以及目标回答文本合成第三音频,将第三音频作为对语音数据的回答进行播放。
本申请实施例中,当访客类型为客人时,例如客人需要访问的访问对象是小明,当客人有所疑问的时候,为了增加真实度以及亲切感,可以基于访问对象匹配对应的第二声音,然后,通过语音合成技术,根据第二声音、目标语调以及目标回答文本合成第三音频,将第三音频作为对语音数据的回答进行播放。
通过本申请实施例的方法,可以基于访客的人脸以及音频进行分析,确定客人、快递员以及物业人员等访客类型,然后匹配个性化接待策略,针对性强,有利于减少访客需要进行的操作,省时省力,方便快捷且人性化;在执行个性化接待策略的过程中采集访客的语音数据,对语音数据进行语音识别处理,处理过程中引入了增强语音数据的方法,得到更加清晰、准确的语音数据,有利于及时、准确对访客的语音数据进行反馈,有利于进一步提高访客的体验。
参照图2,示出了本申请一实施例的智能迎宾接待装置的结构框图,该装置可以包括:
采集模块,用于采集访客的人脸信息;
确定模块,用于对人脸信息进行识别处理,确定访客类型,访客类型包括客人、快递员以及物业人员中的至少之一;
匹配模块,用于根据访客类型,匹配个性化接待策略,并在执行个性化接待策略的过程中采集访客的语音数据;
执行模块,用于对语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
参照图3,示出了本申请一实施例电子设备的结构框图,该电子设备包括:存储器310和处理器320,存储器310内存储有可在处理器320上运行的指令,处理器320加载并执行该指令实现上述实施例中的智能迎宾接待方法。其中,存储器310和处理器320的数量可以为一个或多个。
在一种实施方式中,电子设备还包括通信接口330,用于与外界设备进行通信,进行数据交互传输。如果存储器310、处理器320和通信接口330独立实现,则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect ,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture ,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器310、处理器320及通信接口330集成在一块芯片上,则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的智能迎宾接待方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”“一些实施例”“示例”“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种智能迎宾接待方法,其特征在于,包括:
采集访客的人脸信息;
对所述人脸信息进行识别处理,确定访客类型,所述访客类型包括客人、快递员以及物业人员中的至少之一;
根据所述访客类型,匹配个性化接待策略,并在执行所述个性化接待策略的过程中采集访客的语音数据;
对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略;
所述根据所述访客类型,匹配个性化接待策略包括:
当访客类型为快递员时,播放寻找快递柜的提示内容并显示快递柜的位置,当快递员到达所述快递柜的位置并基于手机尾号存放物件后,基于手机尾号从通讯录中寻找目标手机号码,并向所述目标手机号码发送待取物件信息或者自动拨打所述目标手机号码,通过文字转语音播放待取物件信息;
当访客类型为物业人员时,播放预先收集的反馈信息,并基于所述反馈信息关联身份ID,显示所述身份ID的联系方式,响应于对所述联系方式的点击指令,建立与所述身份ID对应的人员的通话,所述反馈信息包括报修、咨询、投诉以及建议;
当访客类型为客人时,提示客人出示访问码信息,获取访问码信息,根据所述访问码信息与预先通过小程序收集的访问信息匹配,确定访问对象,根据数据库中所述访问对象的信息,确定所述访问对象所在的目标楼层中的目标区域,根据室内地图生成显示到达所述目标楼层中的目标区域的导航路线并播放导航语音,以及基于所述人脸信息为客人发放门禁权限,供客人通过门禁进入电梯;
所述语音数据包括若干时刻的音频信息;所述对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略包括:
确定第一时刻以及与所述第一时刻相邻的第二时刻,并确定所述第一时刻的音频信息的第一幅值以及所述第二时刻的音频信息第二幅值;
计算幅值加强系数与所述第一幅值的乘积,确定所述第二幅值与所述乘积的差值,得到加强幅值,将所述第二幅值更新为所述加强幅值,将所述第二时刻作为新的第一时刻并确定新的第二时刻,返回所述确定所述第一时刻的音频信息的第一幅值以及所述第二时刻的音频信息第二幅值的步骤,直至若干时刻的音频信息都被更新,得到加强语音数据;
对所述加强语音数据进行分帧处理,得到若干帧加强音频信号,计算每一帧加强音频信号的短时平均幅度,当所述短时平均幅度大于或等于能量阈值,将所述加强语音数据确定为目标语音数据,否则通过声音增强模型对所述加强语音数据进行声音增强,得到目标语音数据;
根据所述目标语音数据计算情感分数,根据情感分数确定情感类型,并根据所述情感类型从语调数据库中匹配目标语调;
将所述目标语音数据转换为文本内容,根据所述文本内容确定目标回答文本;
当访客类型为快递员时,基于预设声音、所述目标语调以及所述目标回答文本合成第一音频,将所述第一音频作为对所述语音数据的回答进行播放;
当访客类型为物业人员时,基于所述身份ID匹配对应人员的第一声音,根据所述第一声音、所述目标语调以及所述目标回答文本合成第二音频,将所述第二音频作为对所述语音数据的回答进行播放;
当访客类型为客人时,基于所述访问对象匹配对应的第二声音,根据所述第二声音、所述目标语调以及所述目标回答文本合成第三音频,将所述第三音频作为对所述语音数据的回答进行播放。
2.根据权利要求1所述智能迎宾接待方法,其特征在于:所述采集访客的人脸信息包括:
通过摄像头拍摄图像;
对所述图像进行人脸特征提取,确定人脸特征信息;
当所述人脸特征信息包括一个人脸的人脸信息,将所述人脸特征信息作为访客的人脸信息;
当所述人脸特征信息包括多个人脸的人脸信息,确定每一人脸信息占所述图像的比例,当最大比例唯一时,将最大比例对应的人脸信息作为访客的人脸信息,当最大比例不唯一时,分别计算最大比例的人脸信息的中心坐标与所述图像的中心点之间的距离,将所述距离最小的人脸信息作为访客的人脸信息。
3.根据权利要求1所述智能迎宾接待方法,其特征在于:所述对所述人脸信息进行识别处理,确定访客类型包括:
将所述人脸信息与人脸数据库中的预存人脸进行匹配;
当匹配成功时,将匹配的预存人脸的类型作为访客类型;
当匹配失败时,在屏幕上显示可选择的访客类型,响应于触摸操作确定选择的访客类型,或者,调整摄像头的焦距以获取访客的人体图像,通过识别模型对所述人体图像进行识别,确定当前衣着特征,根据当前衣着特征与预存的物业人员的第一衣着特征以及快递员的第二衣着特征进行相似度计算,确定访客类型。
4.根据权利要求3所述智能迎宾接待方法,其特征在于:所述根据当前衣着特征与物业人员的第一衣着特征以及快递员的第二衣着特征进行相似度计算,确定访客类型包括:
通过相似度算法,计算所述当前衣着特征与预存的所述第一衣着特征的第一相似度,以及计算所述当前衣着特征与预存的所述第二衣着特征的第二相似度;
当所述第一相似度大于或等于相似度阈值,则确定访客类型为物业人员,当所述第二相似度大于或等于相似度阈值,则确定访客类型为快递员,当所述第一相似度小于相似度阈值且所述第二相似度小于相似度阈值,则确定访客类型为客人。
5.根据权利要求3所述智能迎宾接待方法,其特征在于:所述根据情感分数确定情感类型包括:
将所述情感分数与若干个分数范围进行比较,将包含所述情感分数的目标分数范围对应的情感作为情感类型;
或者,
从所述人脸信息中提取左眼特征信息、右眼特征信息、左嘴角特征信息以及右嘴角特征信息,根据所述左眼特征信息与所述右眼特征信息确定第一间隔,根据所述左嘴角特征信息与所述右嘴角特征信息确定第二间隔,根据所述第一间隔以及所述第二间隔确定脸部特征分数,根据所述情感分数以及所述脸部特征分数进行加权计算,确定目标分数,将所述目标分数与若干个分数范围进行比较,将包含所述目标分数的目标分数范围对应的情感作为情感类型。
6.一种智能迎宾接待装置,其特征在于,包括:
采集模块,用于采集访客的人脸信息;
确定模块,用于对所述人脸信息进行识别处理,确定访客类型,所述访客类型包括客人、快递员以及物业人员中的至少之一;
匹配模块,用于根据所述访客类型,匹配个性化接待策略,并在执行所述个性化接待策略的过程中采集访客的语音数据;
执行模块,用于对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略;
所述根据所述访客类型,匹配个性化接待策略包括:
当访客类型为快递员时,播放寻找快递柜的提示内容并显示快递柜的位置,当快递员到达所述快递柜的位置并基于手机尾号存放物件后,基于手机尾号从通讯录中寻找目标手机号码,并向所述目标手机号码发送待取物件信息或者自动拨打所述目标手机号码,通过文字转语音播放待取物件信息;
当访客类型为物业人员时,播放预先收集的反馈信息,并基于所述反馈信息关联身份ID,显示所述身份ID的联系方式,响应于对所述联系方式的点击指令,建立与所述身份ID对应的人员的通话,所述反馈信息包括报修、咨询、投诉以及建议;
当访客类型为客人时,提示客人出示访问码信息,获取访问码信息,根据所述访问码信息与预先通过小程序收集的访问信息匹配,确定访问对象,根据数据库中所述访问对象的信息,确定所述访问对象所在的目标楼层中的目标区域,根据室内地图生成显示到达所述目标楼层中的目标区域的导航路线并播放导航语音,以及基于所述人脸信息为客人发放门禁权限,供客人通过门禁进入电梯;
所述语音数据包括若干时刻的音频信息;所述对所述语音数据进行语音识别处理,根据语音识别处理结果,执行目标接待策略包括:
确定第一时刻以及与所述第一时刻相邻的第二时刻,并确定所述第一时刻的音频信息的第一幅值以及所述第二时刻的音频信息第二幅值;
计算幅值加强系数与所述第一幅值的乘积,确定所述第二幅值与所述乘积的差值,得到加强幅值,将所述第二幅值更新为所述加强幅值,将所述第二时刻作为新的第一时刻并确定新的第二时刻,返回所述确定所述第一时刻的音频信息的第一幅值以及所述第二时刻的音频信息第二幅值的步骤,直至若干时刻的音频信息都被更新,得到加强语音数据;
对所述加强语音数据进行分帧处理,得到若干帧加强音频信号,计算每一帧加强音频信号的短时平均幅度,当所述短时平均幅度大于或等于能量阈值,将所述加强语音数据确定为目标语音数据,否则通过声音增强模型对所述加强语音数据进行声音增强,得到目标语音数据;
根据所述目标语音数据计算情感分数,根据情感分数确定情感类型,并根据所述情感类型从语调数据库中匹配目标语调;
将所述目标语音数据转换为文本内容,根据所述文本内容确定目标回答文本;
当访客类型为快递员时,基于预设声音、所述目标语调以及所述目标回答文本合成第一音频,将所述第一音频作为对所述语音数据的回答进行播放;
当访客类型为物业人员时,基于所述身份ID匹配对应人员的第一声音,根据所述第一声音、所述目标语调以及所述目标回答文本合成第二音频,将所述第二音频作为对所述语音数据的回答进行播放;
当访客类型为客人时,基于所述访问对象匹配对应的第二声音,根据所述第二声音、所述目标语调以及所述目标回答文本合成第三音频,将所述第三音频作为对所述语音数据的回答进行播放。
7.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由所述处理器加载并执行,以实现如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411017034.1A CN118544367B (zh) | 2024-07-29 | 2024-07-29 | 一种智能迎宾接待方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411017034.1A CN118544367B (zh) | 2024-07-29 | 2024-07-29 | 一种智能迎宾接待方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118544367A CN118544367A (zh) | 2024-08-27 |
CN118544367B true CN118544367B (zh) | 2024-10-01 |
Family
ID=92446179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411017034.1A Active CN118544367B (zh) | 2024-07-29 | 2024-07-29 | 一种智能迎宾接待方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118544367B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875470A (zh) * | 2017-06-19 | 2018-11-23 | 北京旷视科技有限公司 | 对访客进行登记的方法、装置及计算机存储介质 |
CN113128265A (zh) * | 2019-12-30 | 2021-07-16 | 华为技术有限公司 | 一种人物识别方法及装置 |
CN114474071A (zh) * | 2022-03-18 | 2022-05-13 | 博学宽行(成都)科技有限公司 | 一种迎宾机器人智能控制方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4072033B2 (ja) * | 2002-09-24 | 2008-04-02 | 本田技研工業株式会社 | 受付案内ロボット装置 |
CN105425970B (zh) * | 2015-12-29 | 2019-02-26 | 深圳微服机器人科技有限公司 | 一种人机互动的方法、装置及机器人 |
-
2024
- 2024-07-29 CN CN202411017034.1A patent/CN118544367B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875470A (zh) * | 2017-06-19 | 2018-11-23 | 北京旷视科技有限公司 | 对访客进行登记的方法、装置及计算机存储介质 |
CN113128265A (zh) * | 2019-12-30 | 2021-07-16 | 华为技术有限公司 | 一种人物识别方法及装置 |
CN114474071A (zh) * | 2022-03-18 | 2022-05-13 | 博学宽行(成都)科技有限公司 | 一种迎宾机器人智能控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118544367A (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110475069B (zh) | 图像的拍摄方法及装置 | |
US20210258426A1 (en) | Systems and methods for smart dialogue communication | |
CN111583944A (zh) | 变声方法及装置 | |
RU2720359C1 (ru) | Способ и оборудование распознавания эмоций в речи | |
CN110174942B (zh) | 眼动合成方法及装置 | |
CN114391145A (zh) | 具有自适应响应生成的ai驱动的个人助理 | |
CN111326138A (zh) | 语音生成方法及装置 | |
CN113643047A (zh) | 虚拟现实控制策略的推荐方法、装置、设备及存储介质 | |
CN115039169A (zh) | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 | |
CN113033245A (zh) | 一种功能调节方法、装置、存储介质及电子设备 | |
CN115423908A (zh) | 虚拟人脸的生成方法、装置、设备以及可读存储介质 | |
CN116129852A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN118544367B (zh) | 一种智能迎宾接待方法、装置、设备及存储介质 | |
CN113345452B (zh) | 语音转换方法、语音转换模型的训练方法、装置和介质 | |
CN113780013A (zh) | 一种翻译方法、设备和可读介质 | |
CN113301352B (zh) | 在视频播放期间进行自动聊天 | |
CN115171284B (zh) | 一种老年人关怀方法及装置 | |
WO2021047103A1 (zh) | 一种语音识别方法及装置 | |
CN117198335A (zh) | 一种语音交互方法、装置、计算机设备及智能家居系统 | |
CN112863511B (zh) | 信号处理方法、装置以及存储介质 | |
CN114155849A (zh) | 一种虚拟对象的处理方法、装置和介质 | |
CN112434714A (zh) | 多媒体识别的方法、装置、存储介质及电子设备 | |
CN117642817A (zh) | 识别音频数据类别的方法、装置及存储介质 | |
CN112908362A (zh) | 基于采集机器人终端的系统、机器人终端、方法及介质 | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |