CN108806684B - 位置提示方法、装置、存储介质及电子设备 - Google Patents
位置提示方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN108806684B CN108806684B CN201810679921.3A CN201810679921A CN108806684B CN 108806684 B CN108806684 B CN 108806684B CN 201810679921 A CN201810679921 A CN 201810679921A CN 108806684 B CN108806684 B CN 108806684B
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- electronic device
- preset
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 210000000887 face Anatomy 0.000 description 6
- 238000012806 monitoring device Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种位置提示方法、装置、存储介质及电子设备,其中,可以通过设置在不同位置的多个麦克风,采集外部环境中的语音信号,并获取采集到的语音信号所包括的待执行指令,在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息,最后根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出该位置提示信息。与相关技术中通过响铃进行位置提示的方式相比,本申请能够在用户无法找到电子设备时,根据用户的语音信号获取到用户的第一方位信息,并根据该第一方位信息进行位置提示,从而更好的引导用户找到电子设备,提高了电子设备被找到的概率。
Description
技术领域
本申请涉及电子设备技术领域,具体涉及一种位置提示方法、装置、存储介质及电子设备。
背景技术
目前,随着技术的发展,人机之间的交互方式变得越来越丰富。相关技术中,用户可以通过语音对手机、平板电脑等电子设备进行控制,即电子设备在接收到用户发出的语音信号后,可以根据该语音信号执行对应的操作。比如,在用户找不到电子设备时,电子设备可以根据用户的语音信号以响铃的方式进行位置提示,引导用户找到电子设备,但是,并不是所有用户均能够做到听声辨位。
发明内容
本申请实施例提供了一种位置提示方法、装置、存储介质及电子设备,能够提高电子设备被找到的概率。
第一方面,本申请实施例提供了一种位置提示方法,应用于电子设备,该电子设备包括多个设置在不同位置的麦克风,该位置提示方法方法包括:
通过多个所述麦克风采集外部环境中的语音信号;
获取所述语音信号包括的待执行指令;
在所述待执行指令为用于触发位置提示的指令时,根据多个所述麦克风采集到所述语音信号的时间差,获取所述语音信号的发音者的第一方位信息;
根据所述第一方位信息生成位置提示信息,并以语音的方式输出所述位置提示信息。
第二方面,本申请实施例提供了一种位置提示装置,应用于电子设备,该电子设备包括多个设置在不同位置的麦克风,该位置提示装置包括:
语音采集模块,用于通过多个所述麦克风采集外部环境中的语音信号;
第一获取模块,用于获取所述语音信号包括的待执行指令;
第二获取模块,用于在所述待执行指令为用于触发位置提示的指令时,根据多个所述麦克风采集到所述语音信号的时间差,获取所述语音信号的发音者的第一方位信息;
位置提示模块,用于根据所述第一方位信息生成位置提示信息,并以语音的方式输出所述位置提示信息。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请实施例提供的位置提示方法中的步骤。
第四方面,本申请实施例提供了一种电子设备,包括处理器、存储器以及多个设置在不同位置的麦克风,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的位置提示方法中的步骤。
本申请实施例中,电子设备可以通过设置在不同位置的多个麦克风,采集外部环境中的语音信号,并获取采集到的语音信号所包括的待执行指令,在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息,最后根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出该位置提示信息。与相关技术中通过响铃进行位置提示的方式相比,本申请能够在用户无法找到电子设备时,根据用户的语音信号获取到用户的第一方位信息,并根据该第一方位信息进行位置提示,从而更好的引导用户找到电子设备,提高了电子设备被找到的概率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的位置提示方法的一流程示意图。
图2是本申请实施例中一种麦克风的位置设置示意图。
图3是本申请实施例中另一种麦克风的位置设置示意图。
图4是本申请实施例中电子设备获取语音信号的发音者的第一方位信息的示意图。
图5是本申请实施例提供的位置提示方法的另一流程示意图。
图6是本申请实施例提供的位置提示装置的一结构示意图。
图7是本申请实施例提供的电子设备的一结构示意图。
图8是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种位置提示方法,该位置提示方法的执行主体可以是本申请实施例提供的位置提示装置,或者集成了该位置提示装置的电子设备,其中该位置提示装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参照图1,图1为本申请实施例提供的位置提示方法的流程示意图。如图1所示,本申请实施例提供的位置提示方法的流程可以如下:
101、通过多个麦克风采集外部环境中的语音信号。
本申请实施例中,电子设备包括设置在不同位置的多个麦克风,电子设备可以通过这些麦克风采集外部环境中的语音信号。其中,根据麦克风个数的不同,可以按照不同设置方式来设置麦克风。
比如,请参照图2,电子设备包括三个麦克风,分别为麦克风1、麦克风2和麦克风3,其中,麦克风1设置在电子设备的左侧边,麦克风2设置在电子设备的右侧边,麦克风3设置电子设备的下侧边,且麦克风1、麦克风2和麦克风3两两之间连线形成一个等边三角形。
又比如,请参照图3,电子设备包括两个麦克风,分别为麦克风1和麦克风2,其中,麦克风1设置在电子设备的左侧边,麦克风2设置在电子设备的右侧边,且麦克风1和麦克风2之间的连线与电子设备的上下两侧边平行。
需要说明的是,在采集外部环境中的语音信号时,若麦克风为模拟麦克风,电子设备将采集到模拟的语音信号,此时电子设备需要对模拟的语音信号进行采样,以将模拟的语音信号转换为数字化的语音信号,比如,可以16KHz的采样频率进行采样;此外,若麦克风为数字麦克风,则电子设备将通过数字麦克风直接采集到数字化的语音信号,无需进行转换。
102、获取采集到的语音信号所包括的待执行指令。
需要说明的是,由于电子设备包括多个麦克风,相应的,电子设备将采集到来自外部环境中同一发音者的多个语音信号,电子设备可以选取一个麦克风采集到的语音信号,并获取该语音信号所包括的待执行指令。
比如,电子设备可以随机选取一个麦克风采集到的语音信号进行待执行指令的获取。又比如,电子设备可以选取最先被采集到的语音信号进行待执行指令的获取。
在获取语音信号所包括的待执行指令时,电子设备首先判断本地是否存在语音解析引擎,若存在,则电子设备将前述语音信号输入到本地的语音解析引擎进行语音解析,得到语音解析文本。其中,对语音信号进行语音解析,也即是将语音信号由“音频”向“文字”的转换过程。
此外,在本地存在多个语音解析引擎时,电子设备可以按照以下方式从多个语音解析引擎中选取一个语音解析引擎对语音信号进行语音解析:
其一,电子设备可以从本地的多个语音解析引擎中随机选取一个语音解析引擎,对前述语音信号进行语音解析。
其二,电子设备可以从多个语音解析引擎中选取解析成功率最高的语音解析引擎,对前述语音信号进行语音解析。
其三,电子设备可以从多个语音解析引擎中选取解析时长最短的语音解析引擎,对前述语音信号进行语音解析。
其四,电子设备还可以从多个语音解析引擎中,选取解析成功率达到预设成功率、且解析时长最短的语音解析引擎对前述语音信号进行语音解析。
需要说明的是,本领域技术人员还可以按照以上未列出的方式进行语音解析引擎的选取,或者可以结合多个语音解析引擎对前述语音信号进行语音解析,比如,电子设备可以同时通过两个语音解析引擎对前述语音信号进行语音解析,并在两个语音解析引擎得到的语音解析文本相同时,将该相同的语音解析文本作为前述语音信号的语音解析文本;又比如,电子设备可以通过至少三个语音解析引擎对前述语音信号进行语音解析,并在其中至少两个语音解析引擎得到的语音解析文本相同时,将该相同的语音解析文本作为前述语音信号的语音解析文本。
在解析得到前述语音信号的语音解析文本之后,电子设备进一步从该语音解析文本中获取前述语音信号包括的待执行指令。
其中,电子设备预先存储有多个指令关键词,单个指令关键词或者多个指令关键词组合对应一个指令。在从解析得到的语音解析文本获取前述语音信号包括的待执行指令时,电子设备首先对前述语音解析文本进行分词操作,得到对应语音解析文本的词序列,该词序列中包括多个词。
在得到对应语音解析文本的词序列之后,电子设备对词序列进行指令关键词的匹配,也即是查找出词序列中的指令关键词,从而匹配得到对应的指令,将匹配得到的指令作为语音信号的待执行指令。其中,指令关键词的匹配查找包括完全匹配和/或模糊匹配。
此外,电子设备在判断本地是否存在语音解析引擎之后,若不存在,则将前述语音信号发送至服务器(该服务器为提供语音解析服务的服务器),指示该服务器对前述语音信号进行解析,并返回解析前述语音信号所得到的语音解析文本。在接收到服务器返回的语音解析文本之后,电子设备即可从该语音解析文本中获取前述语音信号所包括的待执行指令。
103、在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息。
本申请实施例中,电子设备在得到前述语音信号包括待执行指令之后,若识别到待执行指令为用于触发位置提示的指令,则进一步获取前述语音信号的发音者(即用户)相对于电子设备的方位信息,记为第一方位信息。比如,用于触发位置提示的指令对应指令关键词组合“小欧”+“你”+“在哪儿”,当用户说出“小欧你在哪儿”时,电子设备将判定“小欧你在哪儿”包括的待执行指令为用于触发位置提示的指令。
以下以图3所示的麦克风设置方式,对电子设备如何获取语音信号的第一方位信息进行说明:
请参照图4,图4所示的发音者所发出的语音信号将被麦克风1和麦克风2先后采集到,麦克风1和麦克风2采集到语音信号的时间差为t,根据麦克风1和麦克风2所在的位置,可以计算得到麦克风1和麦克风2之间的距离L1,假设语音信号的入射方向与麦克风1和麦克风2连线的夹角为θ,即假设语音信号的入射方向与电子设备上/下侧边的夹角为θ,由于语音信号在空气中的传播速度C为已知,那么,发音者距离麦克风1和麦克风2的声程差L2=C*t,则根据三角函数原理,有如下公式:
θ=cos-1(L2/L1);
由此,计算得到夹角θ即发音者相较于电子设备的方位角,电子设备根据该方位角,可以确定出发音者相较于自身的第一方位信息为“左后方”。
104、根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出位置提示信息。
其中,电子设备在获取到发音者的第一方位信息之后,根据获取到的第一方位信息生成位置提示信息,该位置提示信息用于提示电子设备相较于发音者的方位。在生成位置提示信息之后,电子设备以语音的方式输出生成的位置提示信息,以引导发音者找到自己。
由上可知,本申请实施例中的电子设备,可以通过设置在不同位置的多个麦克风,采集外部环境中的语音信号,并获取采集到的语音信号所包括的待执行指令,在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息,最后根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出该位置提示信息。与相关技术中通过响铃进行位置提示的方式相比,本申请能够在用户无法找到电子设备时,根据用户的语音信号获取到用户的第一方位信息,并根据该第一方位信息进行位置提示,从而更好的引导用户找到电子设备,提高了电子设备被找到的概率。
在一实施方式中,“根据获取到的第一方位信息生成位置提示信息”包括:
(1)获取当前的第一朝向信息,以及获取发音者的第二朝向信息;
(2)根据第一朝向信息、第二朝向信息以及第一方位信息,获取当前相对于发音者的第二方位信息;
(3)将第二方位信息作为位置提示信息。
其中,电子设备可以通过内置的磁方向感器获取到当前磁方向,并根据当前的位置信息,获取到当前位置对应的磁偏角,再根据获取到的磁方向和磁偏角得到当前的第一朝向信息。
在获取发音者的第二朝向信息时,电子设备可通过语音交互的方式进行获取,比如,电子设备首先以语音的方式输出提示音“主人主人,你现在朝什么方向啊”,并接收发音者根据提示音所回答的、其自身的第二朝向信息。又比如,电子设备可以查询通信范围内存在的监控设备,并从查询到的监控设备获取其拍摄到的发音者图像,由于监控设备的位置和朝向通常是固定的,因此,电子设备可以从发音者图像分析出发音者的第二朝向信息。
电子设备在获取到当前的第一朝向信息,以及获取到发音者的第二朝向信息之后,根据第一朝向信息、第二朝向信息以及第一方位信息,进一步估计出当前相对于发音者的第二方位信息。比如,请继续参照图4,图4中电子设备获取到发音者相较于电子设备的第一方位信息为“左后方”,若假设发音者和电子设备均朝北,则可以得到电子设备相较于发音者的第二方位信息为“右前方”,若假设电子设备朝北、且发音者朝西,则可以得到电子设备相较于发音者的第二方位信息为“右后方”,若假设电子设备朝北、且发音者朝南,则可以得到电子设备相较于发音者的第二方位信息为“左后方”,若假设电子设备朝北、且发音者朝东,则可以得到电子设备相较于发音者的第二方位信息为“左前方”。
在获取到当前相对于发音者的第二方位信息之后,电子设备即可将获取到的第二方位信息作为位置提示信息,通过语音的方式进行输出。比如,电子设备可以“预设信息”+“位置提示信息”的方式进行语音输出,假设预设信息为“主人主人,我在你的”,假设位置提示信息为“右后方”,则电子设备将以语音的方式连续输出“主人主人,我在你的”+“右后方”。
在一实施方式中,“通过多个麦克风采集外部环境中的语音信号”包括:
(1)在通过多个麦克风采集到外部环境中的带噪语音信号时,获取对应带噪语音信号的历史噪声信号;
(2)根据历史噪声信号,获取带噪语音信号采集期间的噪声信号;
(3)将获取到的噪声信号与带噪语音信号进行反相位叠加,并将叠加得到的降噪语音信号作为采集到的语音信号。
容易理解的是,环境中存在各种各样的噪声,比如,办公室中存在电脑运行产生的噪声,敲击键盘产生的噪声等。那么,电子设备在进行语音信号的采集时,显然难以采集到纯净的语音信号。因此,本申请实施例继续提供一种从嘈杂的环境中采集语音信号的方案。
当电子设备处于嘈杂的环境中时,若用户发出语音信号,电子设备将采集到外部环境中的带噪语音信号,该带噪语音信号由用户发出的语音信号和外部环境中的噪声信号组合形成,若用户未发出语音信号,电子设备将仅采集到外部环境中的噪声信号。其中,电子设备将缓存采集到的带噪语音信号和噪声信号。
本申请实施例中,电子设备将通过多个麦克风,采集到外部环境中的对应同一发音者的多个带噪语音信号,此时,电子设备选取一个麦克风采集到的带噪语音信号进行降噪处理,并将降噪处理得到的降噪语音信号作为用作后续处理的语音信号。
以选取的带噪语音信号的起始时刻为结束时刻,获取采集到该带噪语音信号的麦克风之前采集的、预设时长(该预设时长可由本领域技术人员根据实际需要取合适值,本申请实施例对此不做具体限制,比如,可以设置为500ms)的历史噪声信号,将该噪声信号作为对应前述带噪语音信号的历史噪声信号。
比如,预设时长被配置为500毫秒,前述带噪语音信号的起始时刻为2018年06月14日16时13分56秒又500毫秒,则电子设备获取2018年06月14日16时13分56秒至2018年06月14日16时13分56秒又500毫秒期间由前述麦克风缓存的、时长为500毫秒的噪声信号,将该噪声信号作为对应带噪语音信号的历史噪声信号。
电子设备在获取到对应前述带噪语音信号的历史噪声信号之后,根据获取到的历史噪声信号,进一步获取到前述带噪语音信号采集期间的噪声信号。
比如,电子设备可以根据获取到的历史噪声信号,来预测前述带噪语音信号采集期间的噪声分布,从而得到前述带噪语音信号采集期间的噪声信号。
又比如,考虑到噪声的稳定性,连续时间内的噪声变化通常较小,电子设备可以将获取到历史噪声信号作为前述带噪语音信号采集期间的噪声信号,其中,若历史噪声信号的时长大于前述带噪语音信号的时长,则可以从历史噪声信号中截取与前述带噪语音信号相同时长的噪声信号,作为前述带噪语音信号采集期间的噪声信号;若历史噪声信号的时长小于前述带噪语音信号的时长,则可以对历史噪声信号进行复制,拼接多个历史噪声信号以得到与前述带噪语音信号相同时长的噪声信号,作为前述带噪语音信号采集期间的噪声信号。
在获取到前述带噪语音信号采集期间的噪声信号之后,电子设备首先对获取到的噪声信号进行反相处理,再将反相处理后的噪声信号与带噪语音信号进行叠加,以消除带噪语音信号中的噪声部分,得到降噪语音信号,并将得到的该降噪语音信号用作后续处理的语音信号,对于如何进行后续处理,具体可参照以上相关描述,此处不再赘述。
在一实施方式中,“根据历史噪声信号,获取前述带噪语音信号采集期间的噪声信号”包括:
(1)将历史噪声信号作为样本数据进行模型训练,得到噪声预测模型;
(2)根据噪声预测模型预测前述带噪语音信号采集期间的噪声信号。
其中,电子设备在获取到历史噪声信号之后,将该历史噪声信号作为样本数据,并按照预设训练算法进行模型训练,得到噪声预测模型。
需要说明的是,训练算法为机器学习算法,机器学习算法可以通过不断的进行特征学习来对数据进行预测,比如,电子设备可以根据历史的噪声分布来预测当前的噪声分布。其中,机器学习算法可以包括:决策树算法、回归算法、贝叶斯算法、神经网络算法(可以包括深度神经网络算法、卷积神经网络算法以及递归神经网络算法等)、聚类算法等等,对于选取何种训练算法用作预设训练算法进行模型训练,可由本领域技术人员根据实际需要进行选取。
比如,电子设备配置的配置的预设训练算法为高斯混合模型算法(为一种回归算法),在获取到历史噪声信号之后,将该历史噪声信号作为样本数据,并按照高斯混合模型算法进行模型训练,训练得到一个高斯混合模型(噪声预测模型包括多个高斯单元,用于描述噪声分布),将该高斯混合模型作为噪声预测模型。之后,电子设备将带噪语音信号采集期间的开始时刻和结束时刻作为噪声预测模型的输入,输入到噪声预测模型进行处理,由噪声预测模型输出前述带噪语音信号采集期间的噪声信号。
在一实施方式中,“获取采集到的语音信号所包括的待执行指令”包括:
(1)获取前述语音信号的声纹特征;
(2)判断前述声纹特征是否与预设声纹特征匹配;
(3)在前述声纹特征与预设声纹特征匹配时,获取前述语音信号包括的待执行指令。
在实际生活中,每个人说话时的声音都有自己的特点,熟悉的人之间,可以只听声音而相互辨别出来。
这种声音的特点就是声纹特征,声纹特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话,但是声音的频率分布是不同的,听起来有的低沉有的洪亮。
第二个决定声纹特征的因素是发声器官被操纵的方式,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。
本申请实施例中,电子设备在采集到外部环境中的语音信号之后,首先提取出该语音信号的声纹特征,并判断前述声纹特征是否与预设声纹特征匹配。
其中,声纹特征包括但不限于频谱特征分量、倒频谱特征分量、共振峰特征分量、基音特征分量、反射系数特征分量、声调特征分量、语速特征分量、情绪特征分量、韵律特征分量以及节奏特征分量中的至少一种特征分量。预设声纹特征可以为机主预先录入的声纹特征,也可以为机主授权的其他用户预先录入的声纹特征,判断前述声纹特征(也即是采集到外部环境中语音信号的声纹特征)是否与预设声纹特征匹配,也即是判断语音信号的发音者是否为机主。若前述声纹特征与预设声纹特征不匹配,电子设备判定语音信号的发音者不为机主,若前述声纹特征与预设声纹特征匹配,电子设备判定语音信号的发音者为机主,此时获取前述语音信号包括的待执行指令,具体可参照以上相关描述,此处不再赘述。
本申请实施例通过在获取前述语音信号包括的待执行指令之前,根据语音信号的声纹特征对语音信号的发音者进行身份识别,在且仅语音信号的发音者为机主时,才获取前述语音信号包括的待执行指令,以执行后续操作。由此,能够避免电子设备对机主外的他人产生错误响应,以提升机主的使用体验。
在一实施方式中,“判断前述声纹特征是否与预设声纹特征匹配”包括:
(1)获取前述声纹特征和预设声纹特征的相似度;
(2)判断获取到的相似度是否大于或等于第一预设相似度;
(3)在获取到的相似度大于或等于第一预设相似度时,确定前述声纹特征与预设声纹特征匹配。
电子设备在判断前述声纹特征是否与预设声纹特征匹配时,可以获取前述声纹特征与预设声纹特征的相似度,并判断获取到的相似度是否大于或等于第一预设相似度(可由本领域技术人员根据实际需要进行设置)。其中,在获取到的相似度大于或等于第一预设相似度时,确定获取到的前述声纹特征与预设声纹特征匹配,在获取到的相似度小于第一预设相似度时,确定获取到的前述声纹特征与预设声纹特征不匹配。
其中,电子设备可以获取前述声纹特征与预设声纹特征的距离,并将获取到的距离作为前述声纹特征与预设声纹特征的相似度。其中,可由本领域技术人员根据实际需要选取任意一种特征距离(比如欧氏距离、曼哈顿距离、切比雪夫距离等等)来衡量前述声纹特征与预设声纹特征之间的距离。
比如,可以获取前述声纹特征和预设声纹特征的余弦距离,具体参照以下公式:
其中,e表示前述声纹特征和预设声纹特征的余弦距离,f表示前述声纹特征,N表示前述声纹特征和预设声纹特征的维度(前述声纹特征和预设声纹特征的维度相同),fi表示前述声纹特征中第i维度的特征向量,gi表示预设声纹特征中第i维度的特征向量。
在一实施方式中,“判断获取到的相似度是否大于或等于第一预设相似度”之后,还包括:
(1)在获取到的相似度小于第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息;
(2)根据该位置信息判断当前是否位于预设位置范围内;
(3)在当前位于预设位置范围内时,确定前述声纹特征与预设声纹特征匹配。
需要说明的是,由于声纹特征和人体的生理特征密切相关,在日常生活中,如果用户感冒发炎的话,其声音将变得沙哑,声纹特征也将随之发生变化。在这种情况下,即使语音信号的发音者为机主,电子设备也无法识别出。此外,还存在多种导致电子设备无法识别出机主的情况,此处不再赘述。
为解决可能出现的、无法识别出机主的情况,在本申请实施例中,电子设备在完成对声纹特征相似度的判断之后,若前述声纹特征与预设声纹特征的相似度小于第一预设相似度,则进一步判断该相似度是否大于或等于第二预设相似度(该第二预设相似度配置为小于第一预设相似度,具体可由本领域技术人员根据实际需要取合适值,比如,在第一预设相似度被设置为95%时,可以将第二预设相似度设置为75%)。
在判断结果为是,也即是前述声纹特征与预设声纹特征的相似度小于第一预设相似度且大于或等于第二预设相似度时,电子设备进一步获取到当前的位置信息。
其中,在处于室外环境(电子设备可以根据接收到卫星定位信号的强度大小来识别当前处于室外环境,还是处于室内环境,比如,在接收到的卫星定位信号强度低于预设阈值时,判定处于室内环境,在接收到的卫星定位信号强度高于或等于预设阈值时,判定处于室外环境)时,电子设备可以采用卫星定位技术来获取到当前的位置信息,在处于室内环境时,电子设备可以采用室内定位技术来获取当前的位置信息。
在获取到当前的位置信息之后,电子设备根据该位置信息判断当前是否位于预设位置范围内。其中,预设位置范围可以配置为机主的常用位置范围,比如家里和公司等。
在判定当前位于预设位置范围内时,电子设备确定前述声纹特征与预设声纹特征匹配,确定语音信号的发音者为机主。
由此,能够避免可能出现的、无法识别出机主的情况,达到提升机主使用体验的目的。
下面将在上述实施例描述的方法基础上,对本申请的位置提示方法做进一步介绍。请参照图5,该位置提示方法可以包括:
201、在通过多个麦克风采集到外部环境中的带噪语音信号时,获取对应带噪语音信号的历史噪声信号。
本申请实施例中,电子设备包括设置在不同位置的多个麦克风,电子设备可以通过这些麦克风采集外部环境中的语音信号。其中,根据麦克风个数的不同,可以按照不同设置方式来设置麦克风。
比如,请参照图2,电子设备包括三个麦克风,分别为麦克风1、麦克风2和麦克风3,其中,麦克风1设置在电子设备的左侧边,麦克风2设置在电子设备的右侧边,麦克风3设置电子设备的下侧边,且麦克风1、麦克风2和麦克风3两两之间连线形成一个等边三角形。
又比如,请参照图3,电子设备包括两个麦克风,分别为麦克风1和麦克风2,其中,麦克风1设置在电子设备的左侧边,麦克风2设置在电子设备的右侧边,且麦克风1和麦克风2之间的连线与电子设备的上下两侧边平行。
容易理解的是,环境中存在各种各样的噪声,比如,办公室中存在电脑运行产生的噪声,敲击键盘产生的噪声等。那么,电子设备在进行语音信号的采集时,显然难以采集到纯净的语音信号。因此,本申请实施例继续提供一种从嘈杂的环境中采集语音信号的方案。
当电子设备处于嘈杂的环境中时,若用户发出语音信号,电子设备将采集到外部环境中的带噪语音信号,该带噪语音信号由用户发出的语音信号和外部环境中的噪声信号组合形成,若用户未发出语音信号,电子设备将仅采集到外部环境中的噪声信号。其中,电子设备将缓存采集到的带噪语音信号和噪声信号。
本申请实施例中,电子设备将通过多个麦克风,采集到外部环境中的对应同一发音者的多个带噪语音信号,此时,电子设备选取一个麦克风采集到的带噪语音信号进行降噪处理,并将降噪处理得到的降噪语音信号作为用作后续处理的语音信号。
以选取的带噪语音信号的起始时刻为结束时刻,获取采集到该带噪语音信号的麦克风之前采集的、预设时长(该预设时长可由本领域技术人员根据实际需要取合适值,本申请实施例对此不做具体限制,比如,可以设置为500ms)的历史噪声信号,将该噪声信号作为对应前述带噪语音信号的历史噪声信号。
比如,预设时长被配置为500毫秒,前述带噪语音信号的起始时刻为2018年06月14日16时13分56秒又500毫秒,则电子设备获取2018年06月14日16时13分56秒至2018年06月14日16时13分56秒又500毫秒期间由前述麦克风缓存的、时长为500毫秒的噪声信号,将该噪声信号作为对应带噪语音信号的历史噪声信号。
202、根据历史噪声信号,获取带噪语音信号采集期间的噪声信号。
电子设备在获取到对应前述带噪语音信号的历史噪声信号之后,根据获取到的历史噪声信号,进一步获取到前述带噪语音信号采集期间的噪声信号。
比如,电子设备可以根据获取到的历史噪声信号,来预测前述带噪语音信号采集期间的噪声分布,从而得到前述带噪语音信号采集期间的噪声信号。
又比如,考虑到噪声的稳定性,连续时间内的噪声变化通常较小,电子设备可以将获取到历史噪声信号作为前述带噪语音信号采集期间的噪声信号,其中,若历史噪声信号的时长大于前述带噪语音信号的时长,则可以从历史噪声信号中截取与前述带噪语音信号相同时长的噪声信号,作为前述带噪语音信号采集期间的噪声信号;若历史噪声信号的时长小于前述带噪语音信号的时长,则可以对历史噪声信号进行复制,拼接多个历史噪声信号以得到与前述带噪语音信号相同时长的噪声信号,作为前述带噪语音信号采集期间的噪声信号。
203、将获取到的噪声信号与带噪语音信号进行反相位叠加,并将叠加得到的降噪语音信号作为待处理的语音信号。
在获取到前述带噪语音信号采集期间的噪声信号之后,电子设备首先对获取到的噪声信号进行反相处理,再将反相处理后的噪声信号与带噪语音信号进行叠加,以消除带噪语音信号中的噪声部分,得到降噪语音信号,并将得到的该降噪语音信号作为待处理的语音信号。
204、获取前述语音信号包括的待执行指令。
在获取前述语音信号所包括的待执行指令时,电子设备首先判断本地是否存在语音解析引擎,若存在,则电子设备将前述语音信号输入到本地的语音解析引擎进行语音解析,得到语音解析文本。其中,对语音信号进行语音解析,也即是将语音信号由“音频”向“文字”的转换过程。
此外,在本地存在多个语音解析引擎时,电子设备可以按照以下方式从多个语音解析引擎中选取一个语音解析引擎对语音信号进行语音解析:
其一,电子设备可以从本地的多个语音解析引擎中随机选取一个语音解析引擎,对前述语音信号进行语音解析。
其二,电子设备可以从多个语音解析引擎中选取解析成功率最高的语音解析引擎,对前述语音信号进行语音解析。
其三,电子设备可以从多个语音解析引擎中选取解析时长最短的语音解析引擎,对前述语音信号进行语音解析。
其四,电子设备还可以从多个语音解析引擎中,选取解析成功率达到预设成功率、且解析时长最短的语音解析引擎对前述语音信号进行语音解析。
需要说明的是,本领域技术人员还可以按照以上未列出的方式进行语音解析引擎的选取,或者可以结合多个语音解析引擎对前述语音信号进行语音解析,比如,电子设备可以同时通过两个语音解析引擎对前述语音信号进行语音解析,并在两个语音解析引擎得到的语音解析文本相同时,将该相同的语音解析文本作为前述语音信号的语音解析文本;又比如,电子设备可以通过至少三个语音解析引擎对前述语音信号进行语音解析,并在其中至少两个语音解析引擎得到的语音解析文本相同时,将该相同的语音解析文本作为前述语音信号的语音解析文本。
在解析得到前述语音信号的语音解析文本之后,电子设备进一步从该语音解析文本中获取前述语音信号包括的待执行指令。
其中,电子设备预先存储有多个指令关键词,单个指令关键词或者多个指令关键词组合对应一个指令。在从解析得到的语音解析文本获取前述语音信号包括的待执行指令时,电子设备首先对前述语音解析文本进行分词操作,得到对应语音解析文本的词序列,该词序列中包括多个词。
在得到对应语音解析文本的词序列之后,电子设备对词序列进行指令关键词的匹配,也即是查找出词序列中的指令关键词,从而匹配得到对应的指令,将匹配得到的指令作为语音信号的待执行指令。其中,指令关键词的匹配查找包括完全匹配和/或模糊匹配。
此外,电子设备在判断本地是否存在语音解析引擎之后,若不存在,则将前述语音信号发送至服务器(该服务器为提供语音解析服务的服务器),指示该服务器对前述语音信号进行解析,并返回解析前述语音信号所得到的语音解析文本。在接收到服务器返回的语音解析文本之后,电子设备即可从该语音解析文本中获取前述语音信号所包括的待执行指令。
205、在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到带噪语音信号的时间差,获取前述语音信号的发音者的第一方位信息。
本申请实施例中,电子设备在得到前述语音信号包括待执行指令之后,若识别到待执行指令为用于触发位置提示的指令,则进一步获取前述语音信号的发音者(即用户)相对于电子设备的方位信息,记为第一方位信息。比如,用于触发位置提示的指令对应指令关键词组合“小欧”+“你”+“在哪儿”,当用户说出“小欧你在哪儿”时,电子设备将判定“小欧你在哪儿”包括的待执行指令为用于触发位置提示的指令。
以下以图3所示的麦克风设置方式,对电子设备如何获取语音信号的第一方位信息进行说明:
请参照图4,图4所示的发音者所发出的语音信号将被麦克风1和麦克风2先后采集到,麦克风1和麦克风2采集到语音信号的时间差为t,根据麦克风1和麦克风2所在的位置,可以计算得到麦克风1和麦克风2之间的距离L1,假设语音信号的入射方向与麦克风1和麦克风2连线的夹角为θ,即假设语音信号的入射方向与电子设备上/下侧边的夹角为θ,由于语音信号在空气中的传播速度C为已知,那么,发音者距离麦克风1和麦克风2的声程差L2=C*t,则根据三角函数原理,有如下公式:
θ=cos-1(L2/L1);
由此,计算得到夹角θ即发音者相较于电子设备的方位角,电子设备根据该方位角,可以确定出发音者相较于自身的第一方位信息为“左后方”。
206、获取当前的第一朝向信息,以及获取发音者的第二朝向信息。
其中,电子设备可以通过内置的磁方向感器获取到当前磁方向,并根据当前的位置信息,获取到当前位置对应的磁偏角,再根据获取到的磁方向和磁偏角得到当前的第一朝向信息。
在获取发音者的第二朝向信息时,电子设备可通过语音交互的方式进行获取,比如,电子设备首先以语音的方式输出提示音“主人主人,你现在朝什么方向啊”,并接收发音者根据提示音所回答的、其自身的第二朝向信息。又比如,电子设备可以查询通信范围内存在的监控设备,并从查询到的监控设备获取其拍摄到的发音者图像,由于监控设备的位置和朝向通常是固定的,因此,电子设备可以从发音者图像分析出发音者的第二朝向信息。
207、根据第一朝向信息、第二朝向信息以及第一方位信息,获取当前相对于发音者的第二方位信息。
电子设备在获取到当前的第一朝向信息,以及获取到发音者的第二朝向信息之后,根据第一朝向信息、第二朝向信息以及第一方位信息,进一步估计出当前相对于发音者的第二方位信息。比如,请继续参照图4,图4中电子设备获取到发音者相较于电子设备的第一方位信息为“左后方”,若假设发音者和电子设备均朝北,则可以得到电子设备相较于发音者的第二方位信息为“右前方”,若假设电子设备朝北、且发音者朝西,则可以得到电子设备相较于发音者的第二方位信息为“右后方”,若假设电子设备朝北、且发音者朝南,则可以得到电子设备相较于发音者的第二方位信息为“左后方”,若假设电子设备朝北、且发音者朝东,则可以得到电子设备相较于发音者的第二方位信息为“左前方”。
208、将第二方位信息作为位置提示信息,并以语音的方式输出位置提示信息。
在获取到当前相对于发音者的第二方位信息之后,电子设备即可将获取到的第二方位信息作为位置提示信息,通过语音的方式进行输出。比如,电子设备可以“预设信息”+“位置提示信息”的方式进行语音输出,假设预设信息为“主人主人,我在你的”,假设位置提示信息为“右后方”,则电子设备将以语音的方式连续输出“主人主人,我在你的”+“右后方”。
在一实施例中,还提供了一种位置提示装置。请参照图6,图6为本申请实施例提供的位置提示装置400的结构示意图。其中该位置提示装置应用于电子设备,该位置提示装置包括语音采集模块401、第一获取模块402、第二获取模块403和位置提示模块404,如下:
语音采集模块401,用于通过多个麦克风采集外部环境中的语音信号。
第一获取模块402,用于获取采集到的语音信号所包括的待执行指令。
第二获取模块403,用于在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息。
位置提示模块404,用于根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出位置提示信息。
在一实施方式中,位置提示模块404可以用于:
获取当前的第一朝向信息,以及获取发音者的第二朝向信息;
根据第一朝向信息、第二朝向信息以及第一方位信息,获取当前相对于发音者的第二方位信息;
将第二方位信息作为位置提示信息。
在一实施例中,语音采集模块401可以用于:
在通过多个麦克风采集到外部环境中的带噪语音信号时,获取对应带噪语音信号的历史噪声信号;
根据历史噪声信号,获取带噪语音信号采集期间的噪声信号;
将获取到的噪声信号与带噪语音信号进行反相位叠加,并将叠加得到的降噪语音信号作为采集到的语音信号。
在一实施方式中,语音采集模块401可以用于:
将历史噪声信号作为样本数据进行模型训练,得到噪声预测模型;
根据噪声预测模型预测前述带噪语音信号采集期间的噪声信号。
在一实施方式中,第一获取模块402可以用于:
获取前述语音信号的声纹特征;
判断前述声纹特征是否与预设声纹特征匹配;
在前述声纹特征与预设声纹特征匹配时,获取前述语音信号包括的待执行指令。
在一实施方式中,第一获取模块402可以用于:
获取前述声纹特征和预设声纹特征的相似度;
判断获取到的相似度是否大于或等于第一预设相似度;
在获取到的相似度大于或等于第一预设相似度时,确定前述声纹特征与预设声纹特征匹配。
在一实施方式中,第一获取模块402可以用于:
在获取到的相似度小于第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息;
根据该位置信息判断当前是否位于预设位置范围内;
在当前位于预设位置范围内时,确定前述声纹特征与预设声纹特征匹配。
其中,位置提示装置400中各模块执行的步骤可以参考上述方法实施例描述的方法步骤。该位置提示装置400可以集成在电子设备中,如手机、平板电脑等。
具体实施时,以上各个模块可以作为独立的实体实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单位的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例的位置提示装置可以由语音采集模块401通过设置在不同位置的多个麦克风,采集外部环境中的语音信号。由第一获取模块402获取采集到的语音信号所包括的待执行指令。由第二获取模块403在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息。由位置提示模块404根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出位置提示信息。与相关技术中通过响铃进行位置提示的方式相比,本申请能够在用户无法找到电子设备时,根据用户的语音信号获取到用户的第一方位信息,并根据该第一方位信息进行位置提示,从而更好的引导用户找到电子设备,提高了电子设备被找到的概率。
在一实施例中,还提供一种电子设备。请参照图7,电子设备500包括处理器501以及存储器502。其中,处理器501与存储器502电性连接。
处理器500是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的计算机程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能并处理数据。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
在本申请实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中,并由处理器501运行存储在存储器502中的计算机程序,从而实现各种功能,如下:
通过多个麦克风采集外部环境中的语音信号;
获取采集到的语音信号所包括的待执行指令;
在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息;
根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出位置提示信息。
请一并参阅图8,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid Crystal Display,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图8中未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。
在某些实施方式中,在根据获取到的第一方位信息生成位置提示信息时,处理器501可以执行以下步骤:
获取当前的第一朝向信息,以及获取发音者的第二朝向信息;
根据第一朝向信息、第二朝向信息以及第一方位信息,获取当前相对于发音者的第二方位信息;
将第二方位信息作为位置提示信息。
在某些实施方式中,在通过多个麦克风采集外部环境中的语音信号时,处理器501可以执行以下步骤:
在通过多个麦克风采集到外部环境中的带噪语音信号时,获取对应带噪语音信号的历史噪声信号;
根据历史噪声信号,获取带噪语音信号采集期间的噪声信号;
将获取到的噪声信号与带噪语音信号进行反相位叠加,并将叠加得到的降噪语音信号作为采集到的语音信号。
在某些实施方式中,在根据历史噪声信号,获取带噪语音信号采集期间的噪声信号时,处理器501可以执行以下步骤:
将历史噪声信号作为样本数据进行模型训练,得到噪声预测模型;
根据噪声预测模型预测前述带噪语音信号采集期间的噪声信号。
在某些实施方式中,在获取前述语音信号包括的待执行指令之前,处理器501可以执行以下步骤:
获取前述语音信号的声纹特征;
判断前述声纹特征是否与预设声纹特征匹配;
在前述声纹特征与预设声纹特征匹配时,获取前述语音信号包括的待执行指令。
在某些实施方式中,在判断前述声纹特征是否与预设声纹特征匹配时,处理器501还可以执行以下步骤:
获取前述声纹特征和预设声纹特征的相似度;
判断获取到的相似度是否大于或等于第一预设相似度;
在获取到的相似度大于或等于第一预设相似度时,确定前述声纹特征与预设声纹特征匹配。
在某些实施方式中,在判断获取到的相似度是否大于或等于第一预设相似度之后,处理器501还可以执行以下步骤:
在获取到的相似度小于第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息;
根据该位置信息判断当前是否位于预设位置范围内;
在当前位于预设位置范围内时,确定前述声纹特征与预设声纹特征匹配。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的位置提示方法,比如:通过多个麦克风采集外部环境中的语音信号;获取采集到的语音信号所包括的待执行指令;在待执行指令为用于触发位置提示的指令时,根据各麦克风采集到语音信号的时间差,获取语音信号的发音者的第一方位信息;根据获取到的第一方位信息生成位置提示信息,并以语音的方式输出位置提示信息。
本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)或者随机存取器(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的位置提示方法而言,本领域普通测试人员可以理解实现本申请实施例的位置提示方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如位置提示方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的位置提示装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种位置提示方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种位置提示方法,应用于电子设备,其特征在于,所述电子设备包括多个设置在不同位置的麦克风,所述位置提示方法包括:
通过多个所述麦克风采集外部环境中的语音信号;
获取所述语音信号的声纹特征;
获取所述声纹特征和预设声纹特征的相似度;
判断所述相似度是否大于或等于第一预设相似度;
在所述相似度小于所述第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息;
根据所述位置信息判断当前是否位于预设位置范围内;
在当前位于预设位置范围内时,确定所述声纹特征与所述预设声纹特征匹配;
在所述声纹特征与预设声纹特征匹配时,获取所述语音信号包括的待执行指令;
在所述待执行指令为用于触发位置提示的指令时,根据多个所述麦克风采集到所述语音信号的时间差,获取所述语音信号的发音者的第一方位信息;
根据所述第一方位信息生成位置提示信息,并以语音的方式输出所述位置提示信息。
2.如权利要求1所述的位置提示方法,其特征在于,根据所述第一方位信息生成位置提示信息的步骤,包括:
获取当前的第一朝向信息,以及获取所述发音者的第二朝向信息;
根据所述第一朝向信息、所述第二朝向信息以及所述第一方位信息,获取当前相对于所述发音者的第二方位信息;
将所述第二方位信息作为所述位置提示信息。
3.如权利要求1所述的位置提示方法,其特征在于,通过多个所述麦克风采集外部环境中的语音信号的步骤,包括:
在通过多个所述麦克风采集到外部环境中的带噪语音信号时,获取对应所述带噪语音信号的历史噪声信号;
根据所述历史噪声信号,获取所述带噪语音信号采集期间的噪声信号;
将所述噪声信号与所述带噪语音信号进行反相位叠加,并将叠加得到的降噪语音信号作为所述语音信号。
4.如权利要求3所述的位置提示方法,其特征在于,根据所述历史噪声信号,获取所述带噪语音信号采集期间的噪声信号的步骤,包括:
将所述历史噪声信号作为样本数据进行模型训练,得到噪声预测模型;
根据所述噪声预测模型预测所述采集期间的所述噪声信号。
5.如权利要求1所述的位置提示方法,其特征在于,判断所述相似度是否大于或等于第一预设相似度的步骤之后,还包括:
在所述相似度大于或等于所述第一预设相似度时,确定所述声纹特征与所述预设声纹特征匹配。
6.一种位置提示装置,应用于电子设备,其特征在于,所述电子设备包括多个设置在不同位置的麦克风,所述位置提示装置包括:
语音采集模块,用于通过多个所述麦克风采集外部环境中的语音信号;
第一获取模块,用于获取所述语音信号的声纹特征;获取所述声纹特征和预设声纹特征的相似度;判断所述相似度是否大于或等于第一预设相似度;在所述相似度小于所述第一预设相似度且大于或等于第二预设相似度时,获取当前的位置信息;根据所述位置信息判断当前是否位于预设位置范围内;在当前位于预设位置范围内时,确定所述声纹特征与所述预设声纹特征匹配;在所述声纹特征与预设声纹特征匹配时,获取所述语音信号包括的待执行指令;
第二获取模块,用于在所述待执行指令为用于触发位置提示的指令时,根据多个所述麦克风采集到所述语音信号的时间差,获取所述语音信号的发音者的第一方位信息;
位置提示模块,用于根据所述第一方位信息生成位置提示信息,并以语音的方式输出所述位置提示信息。
7.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至5任一项所述的位置提示方法。
8.一种电子设备,包括处理器、存储器以及多个设置在不同位置的麦克风,所述存储器储存有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至5任一项所述的位置提示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810679921.3A CN108806684B (zh) | 2018-06-27 | 2018-06-27 | 位置提示方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810679921.3A CN108806684B (zh) | 2018-06-27 | 2018-06-27 | 位置提示方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108806684A CN108806684A (zh) | 2018-11-13 |
CN108806684B true CN108806684B (zh) | 2023-06-02 |
Family
ID=64071899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810679921.3A Active CN108806684B (zh) | 2018-06-27 | 2018-06-27 | 位置提示方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108806684B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109830226A (zh) * | 2018-12-26 | 2019-05-31 | 出门问问信息科技有限公司 | 一种语音合成方法、装置、存储介质和电子设备 |
CN109633550B (zh) * | 2018-12-28 | 2020-11-13 | 智博汽车科技(上海)有限公司 | 车辆及其目标物位置确定方法与装置 |
CN110112801B (zh) * | 2019-04-29 | 2023-05-02 | 西安易朴通讯技术有限公司 | 一种充电方法以及充电系统 |
CN111445925A (zh) * | 2020-03-31 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 用于生成差异信息的方法和装置 |
CN111787609A (zh) * | 2020-07-09 | 2020-10-16 | 北京中超伟业信息安全技术股份有限公司 | 基于人体声纹特征和麦克风基站的人员定位系统及方法 |
CN115512704B (zh) * | 2022-11-09 | 2023-08-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496365A (zh) * | 2011-11-30 | 2012-06-13 | 上海博泰悦臻电子设备制造有限公司 | 用户验证方法和装置 |
CN104580699A (zh) * | 2014-12-15 | 2015-04-29 | 广东欧珀移动通信有限公司 | 一种待机时声控智能终端方法及装置 |
CN105827810A (zh) * | 2015-10-20 | 2016-08-03 | 南京步步高通信科技有限公司 | 一种基于声纹识别的通信终端寻回方法及通信终端 |
CN106034024A (zh) * | 2015-03-11 | 2016-10-19 | 广州杰赛科技股份有限公司 | 一种基于位置和声纹的认证方法 |
CN106878535A (zh) * | 2015-12-14 | 2017-06-20 | 北京奇虎科技有限公司 | 移动终端位置的提醒方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6650997B2 (en) * | 2001-09-28 | 2003-11-18 | Robert Bosch Gmbh | System and method for interfacing mobile units using a cellphone |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
CN102109594B (zh) * | 2009-12-28 | 2014-04-30 | 深圳富泰宏精密工业有限公司 | 声音侦测通报系统及方法 |
US9251787B1 (en) * | 2012-09-26 | 2016-02-02 | Amazon Technologies, Inc. | Altering audio to improve automatic speech recognition |
CN103064061B (zh) * | 2013-01-05 | 2014-06-11 | 河北工业大学 | 三维空间声源定位方法 |
CN105227752B (zh) * | 2014-12-16 | 2019-03-05 | 维沃移动通信有限公司 | 寻找移动终端的方法和移动终端 |
CN105959917A (zh) * | 2016-05-30 | 2016-09-21 | 乐视控股(北京)有限公司 | 定位方法、定位装置、电视、智能设备以及移动终端 |
CN106898348B (zh) * | 2016-12-29 | 2020-02-07 | 北京小鸟听听科技有限公司 | 一种出声设备的去混响控制方法和装置 |
CN107464564B (zh) * | 2017-08-21 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置及设备 |
CN108062464A (zh) * | 2017-11-27 | 2018-05-22 | 北京传嘉科技有限公司 | 基于声纹识别的终端控制方法及系统 |
-
2018
- 2018-06-27 CN CN201810679921.3A patent/CN108806684B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496365A (zh) * | 2011-11-30 | 2012-06-13 | 上海博泰悦臻电子设备制造有限公司 | 用户验证方法和装置 |
CN104580699A (zh) * | 2014-12-15 | 2015-04-29 | 广东欧珀移动通信有限公司 | 一种待机时声控智能终端方法及装置 |
CN106034024A (zh) * | 2015-03-11 | 2016-10-19 | 广州杰赛科技股份有限公司 | 一种基于位置和声纹的认证方法 |
CN105827810A (zh) * | 2015-10-20 | 2016-08-03 | 南京步步高通信科技有限公司 | 一种基于声纹识别的通信终端寻回方法及通信终端 |
CN106878535A (zh) * | 2015-12-14 | 2017-06-20 | 北京奇虎科技有限公司 | 移动终端位置的提醒方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108806684A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108806684B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP7101322B2 (ja) | デジタルアシスタントのためのボイストリガ | |
JP7312853B2 (ja) | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN108962241B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
WO2019214361A1 (zh) | 语音信号中关键词的检测方法、装置、终端及存储介质 | |
CN111045639B (zh) | 语音输入方法、装置、电子设备及存储介质 | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN108711429B (zh) | 电子设备及设备控制方法 | |
CN111919248B (zh) | 用于处理用户发声的系统及其控制方法 | |
CN110322760B (zh) | 语音数据生成方法、装置、终端及存储介质 | |
CN110265011B (zh) | 一种电子设备的交互方法及其电子设备 | |
CN110992927B (zh) | 音频生成方法、装置、计算机可读存储介质及计算设备 | |
CN114299933B (zh) | 语音识别模型训练方法、装置、设备、存储介质及产品 | |
CN108900965A (zh) | 位置提示方法、装置、存储介质及电子设备 | |
US20210082405A1 (en) | Method for Location Reminder and Electronic Device | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN109064720B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN108922523B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN116229953A (zh) | 语音交互方法及相关设备 | |
CN111028823B (zh) | 音频生成方法、装置、计算机可读存储介质及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |