CN107742522B - 基于麦克风阵列的目标语音获取方法及装置 - Google Patents
基于麦克风阵列的目标语音获取方法及装置 Download PDFInfo
- Publication number
- CN107742522B CN107742522B CN201710994211.5A CN201710994211A CN107742522B CN 107742522 B CN107742522 B CN 107742522B CN 201710994211 A CN201710994211 A CN 201710994211A CN 107742522 B CN107742522 B CN 107742522B
- Authority
- CN
- China
- Prior art keywords
- gain
- signal
- weak
- strong
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 230000007704 transition Effects 0.000 claims description 33
- 238000001914 filtration Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 230000004807 localization Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002411 adverse Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于麦克风阵列的目标语音获取方法及装置,该方法包括:接收基于麦克风阵列采集的语音信号;确定预选目标语音信号及其方向;分别对所述预选目标语音信号进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号;基于所述强增益信号进行端点检测,得到端点检测结果;根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。利用本发明,可以得到准确、可靠的目标语音信号,进而避免目标语音质量对后续目标语音处理产生不利影响。
Description
技术领域
本发明涉及语音信号处理领域,具体涉及一种基于麦克风阵列的目标语音获取方法及装置。
背景技术
随着信息技术的突飞猛进式发展,越来越多的智能交互产品问世,语音作为最自然、最便捷的交互方式之一,是现今智能交互产品主流的交互方式。在实际语音交互过程中,交互效果直接受语音质量影响,而现实环境复杂多变,存在各种影响语音质量的噪声,因而如何较好地消除噪声、提高目标语音质量在交互场景极其重要。
现有主流的针对目标语音的降噪方法是基于麦克风阵列的降噪:利用多个麦克风得到语音信号的空间信息,对目标方向的目标信号进行语音增强,对非目标方向噪声进行抑制。该方法在麦克风数目较多时效果较好,但在实际应用中考虑到设备的成本和布局的限制,麦克风数目难以达到理想的数目,此时,各波束方向拾音区域较大,在目标方向信号所对应的波束中极有可能既包含目标语音,又包含非目标语音,在目标方向信号增强过程中,如果要想较好地去除噪声进行噪声强抑制,可能会导致目标语音失真,对后续目标语音处理带来不可逆转的影响。因而在现有技术中,一般不进行较强的噪声抑制,此时必然存在噪声残留,噪声残留会导致端点检测不准确,进而在后续目标语音处理,如语音识别中,会出现各种因端点检测不准确导致的插入或缺失错误,影响用户体验。
发明内容
本发明实施例提供一种基于麦克风阵列的目标语音获取方法及装置,以得到准确、可靠的目标语音信号,进而避免目标语音质量对后续目标语音处理产生不利影响。
为此,本发明提供如下技术方案:
一种基于麦克风阵列的目标语音获取方法,所述方法包括:
接收基于麦克风阵列采集的语音信号;
确定预选目标语音信号及其方向;
对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号;
基于所述强增益信号进行端点检测,得到端点检测结果;
根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
优选地,所述确定预选目标语音信号及其方向包括:
通过声源定位确定预选目标语音信号及其方向。
优选地,所述确定预选目标语音信号及其方向包括:
对所述语音信号进行波束成形处理,得到不同方向波束;
从所述不同方向波束中选择满足预设条件的波束,根据选择的波束确定目标语音信号及其方向。
优选地,所述对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号包括:
设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
根据强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
优选地,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
优选地,所述分别对所述预选目标语音信号进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号还包括:
计算所述预选目标信号和干扰信号的平滑能量比γ;
根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数;
根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整。
优选地,所述根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数包括:
在所述平滑能量比γ大于所述高能量比阈值时,将所述增益调整系数设定为1;在所述平滑能量比γ小于所述低能量比阈值时,将所述增益调整系数设定K0;在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时,将所述增益调整系数设定为K1,其中,K1>K0。
优选地,所述方法还包括:
在根据满足预设条件的波束确定预选目标语音信号及其方向之前,对各波束进行自适应滤波降噪处理;或者
在确定预选目标语音信号及其方向之后,对所述预选目标语音信号进行自适应滤波降噪处理。
一种基于麦克风阵列的目标语音获取装置,所述装置包括:信号接收模块、预选模块、增益处理模块、端点检测模块、目标语音提取模块。其中:
所述信号接收模块接收基于麦克风阵列采集的语音信号,并将所述语音信号输出给所述预选模块;
所述预选模块用于确定预选目标语音信号及其方向;
所述增益处理模块对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号,将所述强增益信号输出给所述端点检测模块,将所述弱增益信号输出给所述目标语音提取模块;
所述端点检测模块基于所述强增益信号进行端点检测,将端点检测结果输出给所述目标语音提取模块;
所述目标语音提取模块根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
优选地,所述预选模块通过声源定位确定预选目标语音信号及其方向。
优选地,所述预选模块包括:
波束形成单元,用于对所述语音信号进行波束成形处理,得到不同方向波束;
确定单元,用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束,根据选择的波束确定所述预选目标语音信号及其方向。
优选地,所述增益处理模块包括:
角度设置单元,用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
增益计算单元,用于根据强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
增益信号生成单元,用于分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
优选地,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
优选地,所述增益处理模块还包括:
能量比阈值设置单元,用于设定高能量比阈值和低能量比阈值;
能量比计算单元,用于计算所述预选目标信号和干扰信号的平滑能量比γ;
增益调整系数确定单元,用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数;
增益修正单元,用于根据所述增益调整系数分别对所述增益计算单元得到的所述强方向增益和弱方向增益进行调整。
优选地,所述预选模块还包括:
降噪单元,设置在所述波束形成单元和所述确定单元之间,对所述波束形成单元得到的各波束进行自适应滤波降噪处理;
或者;所述装置还包括:
降噪模块,设置在所述预选模块和增益模块之间,对所述预选模块确定的预选目标语音信号进行自适应滤波降噪处理。
一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行前面所述的基于麦克风阵列的目标语音获取方法中的步骤。
本发明实施例提供的基于麦克风阵列的目标语音获取方法及装置,接收基于麦克风阵列采集的语音信号,确定预选目标语音信号及其方向,再对所述预选目标语音信号分别进行强、弱方向增益处理,得到强增益信号和弱增益信号,由于强增益后的语音信号中残留的噪声信号较少,因此基于所述强增益信号进行端点检测,可以得到准确的端点检测结果;由于弱增益后的语音信号中,目标语音失真很小,因此根据该端点检测结果,对所述弱增益信号进行端点处理,可以得到可信度更高的目标语音信号。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例基于麦克风阵列的目标语音获取方法的流程图;
图2是本发明实施例中基于声源方位角设计的增益示意图;
图3是本发明实施例基于麦克风阵列的目标语音获取装置的一种结构框图;
图4是本发明装置实施例中增益处理模块的一种结构示意图;
图5是本发明装置实施例中增益处理模块的另一种结构示意图;
图6是本发明实施例基于麦克风阵列的目标语音获取装置的另一种结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
语音增强的目标是在保证不损坏目标语音结构的前提下,减少甚至消除接收信号中存在的噪声,从而提高语音的清晰度。为此,本发明实施例提供一种基于麦克风阵列的目标语音获取方法及装置,基于麦克风阵列接收的语音信号,确定预选目标语音信号及其方向;对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号;基于所述强增益信号进行端点检测,得到端点检测结果;根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
如图1所示,是本发明实施例基于麦克风阵列的目标语音获取方法的流程图,包括以下步骤:
步骤101,接收基于麦克风阵列采集的语音信号。
在具体应用中,在接收到语音信号后,还需要对其进行预处理。
以包含M个麦克风的麦克风阵列接收语音信号xm(t)为例,对所述语音信号进行预处理主要指将接收到的语音信号从时域变换到频域,得到频域语音信号x(k,l)=[x1(k,l),x2(k,l)...xm(k,l)...xM(k,l)]T,其中xm(k,l)表示第m个麦克风接收到的频域语音信号,其中k表示信号的频率,l表示语音帧序号。
步骤102,确定预选目标语音信号及其方向。
在本发明实施例中,所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号、有效语音信号等,不论是何种语音信号,均可以采用声源定位方式确定预选目标语音信号及其方向。所述声源定位的具体过程与现有技术相同,在此不再赘述。
在采用声源定位方式确定预选目标语音信号及其方向之前,还可以对所述语音信号进行降噪处理,具体可以采用现有技术中的一些降噪方式,对此本发明实施例不做限定。
另外,在确定预选目标语音信号及其方向时,还可以先对所述语音信号进行波束成形处理,得到不同方向波束;然后从所述不同方向波束中选择满足预设条件的波束,根据选择的波束作确定目标语音信号及其方向。
波束成形具体可以采用现有技术,比如基于方向估计的自适应算法、基于信号结构的波束形成方法等,对此本发明实施例不做限定。
麦克风固定波束形成过程如下:
假设M个麦克风形成N个固定波束,各个麦克风对应的波束形成系数为:
w(k,l)=[w1(k,l),w2(k,l),……,wM(k,l)]T (1)
其中,k表示信号的频率,l表示语音帧序号;
则固定波束的输出为:
fix(k,l)=wH(k,l)x(k,l) (2)
上述固定波束形成系数可以基于期望方向信号无失真、其他方向输出信号功率足够小的原则进行计算得到。
需要说明的是,在实际应用中,在得到各波束后,还可以对其进行自适应滤波降噪处理。所述自适应滤波降噪处理包括多通道去混响、广义旁瓣相消等处理,也可采用现有其他降噪方法,对此不做限定。下面以广义旁瓣相消为例进行说明。
广义旁瓣相消的目的是对非目标方向的信号进行抑制,具体实现过程如下:
首先获得噪声参考信号:
u(k,l)=B(k,l)Hx(k,l) (3)
其中u=[u1(k,l),L,uM-1(k,l)]T是(M-1)×1矢量;B(k,l)是(M-1)×M的阻塞矩阵,可基于最大化抑制期望方向信号的原则得到,该矩阵用于得到剔除掉目标信号外的噪声参考信号。
然后从固定波束信号中滤除噪声信号,固定波束信号中的噪声信号可以用噪声参考信号乘以系数得到,最终的期望波束信号可以表示为:
Y(k,l)=fix(k,l)-H(k,l)Hu(k,l) (4)
其中,H(k,l)H表示滤波器系数,可以通过归一化线性最小均方误差(LMS)算法进行更新获得。
在前面提到,在本发明实施例中,所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号,在这种情况下,可以对各波束进行特定命令词和/或声纹识别,在识别到特定命令词和/或特定目标人后,挑选识别结果满足预设条件,比如识别分数最高的波束作为预选目标语音信号,相应地,该波束的方向即为预选目标语音信号的方向。对于所述预选目标语音信号为有效语音信号的情况,可以对各波束基于设定准则挑选出预选目标语音并确定其对应方向。所述设定准则可以是以下任意一项或组合:能量最大、信噪比最高。
需要说明的是,上述语音信号的自适应滤波降噪处理中多通道去混响、广义旁瓣相消等步骤,还可以在方位确定准确性允许的情况下,在目标语音方向确定之后进行,即对预选目标语音信号进行自适应滤波降噪处理,对此本发明实施例不做限定。
步骤103,对所述预选目标语音信号分别进行强方向增益和弱方向增益,得到强增益信号和弱增益信号。
因为GSC(Generalized Sidelobe Canceller,广义旁瓣抵消器)在非目标方向噪声抑制时通常只能抑制一部分非目标方向的噪声,通过方向增益处理可以对噪声进一步抑制。
为此,在本发明实施例中,通过两种强度的方向增益处理,分别得到强方向增益处理后的语音信号即强增益信号和弱方向增益处理后的语音信号即弱增益信号。处理后得到的强增益信号,其所残留的噪声信号较少,但目标语音信号相应也有较大的失真;而弱增益信号属性则相反。
增益处理过程如下:
1)设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
2)根据强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
3)分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
考虑到不同干扰情况下对所述预选目标语音信号的影响,进一步地,在上述步骤2)和步骤3)之间,还可以包括以下步骤:对基于声源方位角的强方向增益和弱方向增益进行调整,相应地,在步骤3)需要根据调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
方向增益可通过以下公式表示:
其中,gi(θ,l)表示基于声源方位角θ设计的增益;如示意图2所示,θ为声源方位角,即指所述预选目标语音信号的方位角;-T1到T1的区域表示拾音区,T1到T2的区域、以及-T2到-T1的区域表示过渡带,大于T2和小于-T2的区域表示非拾音区。
需要说明的是:强方向增益和弱方向增益的区别在于T1和T2的取值。
在强方向增益时,T1的值取得较小(一般小于目标波束主瓣的角度,可根据实际应用情况确定),T2取值尽可能接近于T1,使得过渡带尽可能窄,以保证非拾音区的增益尽可能小,接近于0。当拾音区较小,同时过渡带设计得比较窄时,容易造成目标语音的失真,但是强方向增益处理后得到的强增益信号主要用于后续的目标语音开始和结束点检测,失真并不造成影响。
在弱方向增益时,T1取值相较于强方向增益大些,一般可稍小于或等于目标波束主瓣的角度(可根据实际应用情况确定),而T2取值可设计得尽可能大,保证声源估计错误时,目标语音分量不被过分抑制。
进一步地,考虑到不同干扰情况下对所述预选目标语音信号的影响,还可以对基于声源方位角的强方向增益和弱方向增益进行调整。对增益的调整过程如下:
首先计算预选目标信号和干扰信号的平滑能量比γ,根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数,从而在不同的平滑能量比情况下,对应不同的增益调整系数;然后根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整。
所述平滑能量比γ可以根据常规的平滑方式来计算,比如,可以采用以下公式计算得到:
在所述平滑能量比γ大于所述高能量比阈值时,将所述增益调整系数设定为1;在所述平滑能量比γ小于所述低能量比阈值时,将所述增益调整系数设定K0;在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时,将所述增益调整系数设定为K1,其中,K1>K0。
比如,对强方向增益和弱方向增益的具体调整公式如下:
其中,i=1、2,分别对应强方向增益和弱方向增益。γ(k,l)表示频率为k的第l帧的预选目标信号和干扰信号的平滑能量比,所述干扰信号可以取其它波束中能量最大的波束;γhigh、γlow分别表示高能量比阈值、低能量比阈值,其取值可根据实际应用情况确定,比如分别为4和0.4。K0为修正系数,主要用于在弱方向增益的时候,在有double-talk(双向通话)的情况下,对增益的修正,一般取一个较小的值,如0.2。
在确定好强、弱两方向增益后,得到增益后的两路信号,即强增益信号和弱增益信号:
Y1(k,l)=G1(k,l)Y(k,l) (8)
Y2(k,l)=G2(k,l)Y(k,l) (9)
其中,Y(k,l)表示所述预选目标语音信号,Y1(k,l)和Y2(k,l)分别为强增益信号和弱增益信号。
步骤104,基于所述强增益信号进行端点检测,得到端点检测结果。
端点检测是从包含语音的一段信号中准确地确定语音的起始点和终止点,从而确定语音和非语音信号。有效的端点检测不仅在语音识别、处理等应用中减少数据的采集量,还能排除无声段和噪声段的干扰,得到有效的语音信号。具体的端点检测可以采用现有技术,比如基于短时能量和短时平均过零率的端点检测、基于倒谱特征的端点检测、基于熵的端点检测等。
步骤105,根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
也就是说,根据步骤105得到的语音的起始点和终止点的位置,从所述弱增益信号得到最终目标语音信号。
本发明实施例提供的基于麦克风阵列的目标语音获取方法,接收基于麦克风阵列采集的语音信号,确定预选目标语音信号及其方向,对所述预选目标语音信号分别进行强、弱方向增益处理,得到强增益信号和弱增益信号,由于强增益后的语音信号中残留的噪声信号较少,因此基于所述强增益信号进行端点检测,可以得到准确的端点检测结果;由于弱增益后的语音信号中,目标语音失真很小,因此根据该端点检测结果,对所述弱增益信号进行端点处理,可以得到可信度更高的目标语音信号。
相应地,本发明实施例还提供一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行本发明基于麦克风阵列的目标语音获取方法实施例中的各步骤。
相应地,本发明实施例还提供一种基于麦克风阵列的目标语音获取装置,如图3所示,是该装置的一种结构框图,包括:信号接收模块301,预选模块302,增益处理模块303,端点检测模块304,目标语音提取模块305。其中:
所述信号接收模块301接收基于麦克风阵列采集的语音信号,并将所述语音信号输出给所述预选模块302;
所述预选模块302用于根据所述语音信号确定预选目标语音信号及其方向;
所述增益处理模块303对所述预选目标语音信号分别进行强方向性增益和弱方向性增益,得到强增益信号和弱增益信号,将所述强增益信号输出给所述端点检测模块304,将所述弱增益信号输出给所述目标语音提取模块305;
所述端点检测模块304基于所述强增益信号进行端点检测,将端点检测结果输出给所述目标语音提取模块305;
所述目标语音提取模块305根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
在实际应用中,所述信号接收模块301还需要对接收的语音信号进行预处理,对所述语音信号进行预处理主要指将接收到的语音信号从时域变换到频域,得到频域语音信号。
在本发明的一个实施例中,所述预选模块302可以通过声源定位确定预选目标语音信号及其方向。
在本发明的另一个实施例中,所述预选模块302可以先对所述语音信号进行波束成形处理,得到不同方向波束;然后选择满足预设条件的波束,根据选择的波束作确定目标语音信号及其方向。相应地,在该实施例中,所述预选模块302可以包括以下两个单元:
波束形成单元,用于对所述语音信号进行波束成形处理,得到不同方向波束,具体可以采用现有技术,比如基于方向估计的自适应算法、基于信号结构的波束形成方法等;
确定单元,用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束,根据选择的波束确定所述预选目标语音信号及其方向。
比如,所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号,在这种情况下,所述确定单元可以对各波束进行特定命令词和/或声纹识别,在识别到特定命令词和/或特定目标人后,通挑选识别结果满足预设条件,比如识别分数最高的波束作为预选目标语音信号,相应地,该波束的方向即为预选目标语音信号的方向。
再比如,所述目预选目标语音信号为有效语音信号,在这种情况下,所述确定单元可以对各波束基于设定准则挑选出预选目标语音并确定其对应方向。所述设定准则可以是以下任意一项或组合:能量最大、信噪比最高。
需要说明的是,在上述波束形成单元和确定单元之间,还可设置降噪单元,对所述波束形成单元得到的各波束进行自适应滤波降噪处理,所述自适应滤波降噪处理包括以下任意一种或多种:多通道去混响、广义旁瓣相消。
如图4所示,是本发明装置实施例中增益处理模块的一种结构示意图。
在该实施例中,所述增益处理模块包括:
角度设置单元41,用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
增益计算单元42,用于根据所述强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据所述弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
增益信号生成单元43,用于分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
如图5所示,是本发明装置实施例中增益处理模块的另一种结构示意图。
与图4所示实施例相比,在该实施例中,所述增益处理模块还包括:
能量比阈值设置单元51,用于设定高能量比阈值和低能量比阈值;
能量比计算单元52,用于计算所述预选目标信号和干扰信号的平滑能量比γ;
增益调整系数确定单元53,用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数;
增益修正单元54,用于根据所述增益调整系数分别对所述增益计算单元42得到的强方向增益和弱方向增益进行调整。
相应地,在该实施例中,增益信号生成单元43需要根据所述增益修正单元54调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
当然,在实际应用中,上述角度设置单元41和能量比阈值设置单元51可以是独立的,也可以是集成于一体的,对此本发明实施例不做限定。
如图6所示,是该装置的另一种结构框图,与图3所示实施例相比较,在该实施例中,所述装置还包括:设置在所述预选模块302和所述增益模块303之间的降噪模块306,用于对所述预选模块302确定的预选目标语音信号进行自适应滤波降噪处理,比如多通道去混响、广义旁瓣相消等处理,当然,也可以包括现有技术中的其它降噪处理,对此本发明实施例不做限定。
本发明实施例提供的基于麦克风阵列的目标语音获取装置,基于麦克风阵列采集的语音信号,确定预选目标语音信号及其方向,再对所述预选目标语音信号分别进行强、弱方向增益处理,得到强增益信号和弱增益信号,由于强增益后的语音信号中残留的噪声信号较少,因此基于所述强增益信号进行端点检测,可以得到准确的端点检测结果;由于弱增益后的语音信号中,目标语音失真很小,因此根据该端点检测结果,对所述弱增益信号进行端点处理,可以得到可信度更高的目标语音信号。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (16)
1.一种基于麦克风阵列的目标语音获取方法,其特征在于,所述方法包括:
接收基于麦克风阵列采集的语音信号;
确定预选目标语音信号及其方向;
对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号;
基于所述强增益信号进行端点检测,得到端点检测结果;
根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号;
所述对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,包括:
设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
根据所述强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据所述弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角。
2.根据权利要求1所述的方法,其特征在于,所述确定预选目标语音信号及其方向包括:
通过声源定位确定预选目标语音信号及其方向。
3.根据权利要求1所述的方法,其特征在于,所述确定预选目标语音信号及其方向包括:
对所述语音信号进行波束成形处理,得到不同方向波束;
从所述不同方向波束中选择满足预设条件的波束,根据选择的波束确定目标语音信号及其方向。
4.根据权利要求1所述的方法,其特征在于,所述基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号,包括:
分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
5.根据权利要求1所述的方法,其特征在于,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
6.根据权利要求1所述的方法,其特征在于,分别对所述预选目标语音信号进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,还包括:
计算所述预选目标语音信号和干扰信号的平滑能量比γ;
根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数;
根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整;
所述基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号,包括:
分别根据调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
7.根据权利要求6所述的方法,其特征在于,所述根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数包括:
在所述平滑能量比γ大于所述高能量比阈值时,将所述增益调整系数设定为1;在所述平滑能量比γ小于所述低能量比阈值时,将所述增益调整系数设定K0;在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时,将所述增益调整系数设定为K1,其中,K1>K0。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在根据满足预设条件的波束确定预选目标语音信号及其方向之前,对各波束进行自适应滤波降噪处理;或者
在确定预选目标语音信号及其方向之后,对所述预选目标语音信号进行自适应滤波降噪处理。
9.一种基于麦克风阵列的目标语音获取装置,其特征在于,所述装置包括:信号接收模块、预选模块、增益处理模块、端点检测模块、目标语音提取模块;其中:
所述信号接收模块用于接收基于麦克风阵列采集的语音信号,并将所述语音信号输出给所述预选模块;
所述预选模块用于确定预选目标语音信号及其方向;
所述增益处理模块对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号,将所述强增益信号输出给所述端点检测模块,将所述弱增益信号输出给所述目标语音提取模块;
所述端点检测模块用于基于所述强增益信号进行端点检测,将端点检测结果输出给所述目标语音提取模块;
所述目标语音提取模块用于根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号;
所述增益处理模块包括:
角度设置单元,用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
增益计算单元,用于根据所述强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据所述弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角。
10.根据权利要求9所述的装置,其特征在于,所述预选模块通过声源定位确定预选目标语音信号及其方向。
11.根据权利要求9所述的装置,其特征在于,所述预选模块包括:
波束形成单元,用于对所述语音信号进行波束成形处理,得到不同方向波束;
确定单元,用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束,根据选择的波束确定所述预选目标语音信号及其方向。
12.根据权利要求9所述的装置,其特征在于,
增益信号生成单元,用于分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
13.根据权利要求9所述的装置,其特征在于,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
14.根据权利要求9所述的装置,其特征在于,所述增益处理模块还包括:
能量比阈值设置单元,用于设定高能量比阈值和低能量比阈值;
能量比计算单元,用于计算所述预选目标语音信号和干扰信号的平滑能量比γ;
增益调整系数确定单元,用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数;
增益修正单元,用于根据所述增益调整系数分别对所述增益计算单元得到的所述强方向增益和弱方向增益进行调整;
所述增益信号生成单元具体用于:分别根据调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
15.根据权利要求11所述的装置,其特征在于,
所述预选模块还包括:
降噪单元,设置在所述波束形成单元和所述确定单元之间,对所述波束形成单元得到的各波束进行自适应滤波降噪处理;
或者;所述装置还包括:
降噪模块,设置在所述预选模块和增益模块之间,对所述预选模块确定的预选目标语音信号进行自适应滤波降噪处理。
16.一种计算机可读存储介质,其特征在于,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如权利要求1至8任一项所述的基于麦克风阵列的目标语音获取方法中的步骤。
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994211.5A CN107742522B (zh) | 2017-10-23 | 2017-10-23 | 基于麦克风阵列的目标语音获取方法及装置 |
EP18870140.3A EP3703053B1 (en) | 2017-10-23 | 2018-07-16 | Microphone array-based target voice acquisition method and device |
JP2020542484A JP7011075B2 (ja) | 2017-10-23 | 2018-07-16 | マイク・アレイに基づく対象音声取得方法及び装置 |
KR1020207014257A KR102469516B1 (ko) | 2017-10-23 | 2018-07-16 | 마이크로폰 어레이 기반 타겟 음성 획득 방법 및 장치 |
ES18870140T ES2967132T3 (es) | 2017-10-23 | 2018-07-16 | Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos |
PCT/CN2018/095765 WO2019080553A1 (zh) | 2017-10-23 | 2018-07-16 | 基于麦克风阵列的目标语音获取方法及装置 |
PL18870140.3T PL3703053T3 (pl) | 2017-10-23 | 2018-07-16 | Sposób i urządzenie do pozyskiwania głosu docelowego w oparciu o matrycę mikrofonową |
US16/757,905 US11081123B2 (en) | 2017-10-23 | 2018-07-16 | Microphone array-based target voice acquisition method and device |
HUE18870140A HUE065302T2 (hu) | 2017-10-23 | 2018-07-16 | Mikrofontömb alapú célhang felvételi eljárás és eszköz |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994211.5A CN107742522B (zh) | 2017-10-23 | 2017-10-23 | 基于麦克风阵列的目标语音获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107742522A CN107742522A (zh) | 2018-02-27 |
CN107742522B true CN107742522B (zh) | 2022-01-14 |
Family
ID=61238104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710994211.5A Active CN107742522B (zh) | 2017-10-23 | 2017-10-23 | 基于麦克风阵列的目标语音获取方法及装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US11081123B2 (zh) |
EP (1) | EP3703053B1 (zh) |
JP (1) | JP7011075B2 (zh) |
KR (1) | KR102469516B1 (zh) |
CN (1) | CN107742522B (zh) |
ES (1) | ES2967132T3 (zh) |
HU (1) | HUE065302T2 (zh) |
PL (1) | PL3703053T3 (zh) |
WO (1) | WO2019080553A1 (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742522B (zh) | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108735227B (zh) * | 2018-06-22 | 2020-05-19 | 北京三听科技有限公司 | 对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
CN108962226B (zh) * | 2018-07-18 | 2019-12-20 | 百度在线网络技术(北京)有限公司 | 用于检测语音的端点的方法和装置 |
CN110875056B (zh) * | 2018-08-30 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN109243457B (zh) * | 2018-11-06 | 2023-01-17 | 北京如布科技有限公司 | 基于语音的控制方法、装置、设备及存储介质 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、系统、装置及可读存储介质 |
CN111627425B (zh) * | 2019-02-12 | 2023-11-28 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及系统 |
CN110310625A (zh) * | 2019-07-05 | 2019-10-08 | 四川长虹电器股份有限公司 | 语音断句方法及系统 |
CN112216298B (zh) * | 2019-07-12 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 双麦克风阵列声源定向方法、装置及设备 |
CN110517677B (zh) * | 2019-08-27 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110619895A (zh) * | 2019-09-06 | 2019-12-27 | Oppo广东移动通信有限公司 | 定向发声控制方法及装置、发声设备、介质和电子设备 |
CN110517702B (zh) * | 2019-09-06 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN111243615B (zh) * | 2020-01-08 | 2023-02-10 | 环鸿电子(昆山)有限公司 | 麦克风阵列信号处理方法及手持式装置 |
CN113141285B (zh) * | 2020-01-19 | 2022-04-29 | 海信集团有限公司 | 一种沉浸式语音交互方法及系统 |
CN111161748B (zh) * | 2020-02-20 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 一种双讲状态检测方法、装置以及电子设备 |
CN113393856B (zh) * | 2020-03-11 | 2024-01-16 | 华为技术有限公司 | 拾音方法、装置和电子设备 |
CN111429905B (zh) * | 2020-03-23 | 2024-06-07 | 北京声智科技有限公司 | 语音信号处理方法、装置、语音智能电梯、介质和设备 |
CN113496708B (zh) * | 2020-04-08 | 2024-03-26 | 华为技术有限公司 | 拾音方法、装置和电子设备 |
CN111627456B (zh) * | 2020-05-13 | 2023-07-21 | 广州国音智能科技有限公司 | 噪音排除方法、装置、设备及可读存储介质 |
USD958435S1 (en) * | 2020-07-17 | 2022-07-19 | Aiping GUO | Motion sensor ceiling light |
CN112151036B (zh) * | 2020-09-16 | 2021-07-30 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN112185406A (zh) * | 2020-09-18 | 2021-01-05 | 北京大米科技有限公司 | 声音处理方法、装置、电子设备和可读存储介质 |
CN112333602B (zh) * | 2020-11-11 | 2022-08-26 | 支付宝(杭州)信息技术有限公司 | 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统 |
CN112562681B (zh) * | 2020-12-02 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 语音识别方法和装置、存储介质 |
CN112735461B (zh) * | 2020-12-29 | 2024-06-07 | 西安讯飞超脑信息科技有限公司 | 拾音方法以及相关装置、设备 |
CN112908310A (zh) * | 2021-01-20 | 2021-06-04 | 宁波方太厨具有限公司 | 一种智能电器中的语音指令识别方法及识别系统 |
CN113053406B (zh) * | 2021-05-08 | 2024-06-18 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
EP4404196A1 (en) * | 2021-11-09 | 2024-07-24 | Samsung Electronics Co., Ltd. | Electronic device for controlling beamforming and operation method thereof |
CN114245266B (zh) * | 2021-12-15 | 2022-12-23 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
CN116168719A (zh) * | 2022-12-26 | 2023-05-26 | 杭州爱听科技有限公司 | 一种基于语境分析的声音增益调节方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007086554A (ja) * | 2005-09-26 | 2007-04-05 | Toshiba Tec Corp | 音声認識装置及び音声認識処理用プログラム |
JP2007147732A (ja) * | 2005-11-24 | 2007-06-14 | Japan Advanced Institute Of Science & Technology Hokuriku | 雑音低減システム及び雑音低減方法 |
WO2010098546A2 (ko) * | 2009-02-27 | 2010-09-02 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP2011257627A (ja) * | 2010-06-10 | 2011-12-22 | Murata Mach Ltd | 音声認識装置と認識方法 |
EP2755204A1 (en) * | 2013-01-15 | 2014-07-16 | Fujitsu Limited | Noise suppression device and method |
CN104091593A (zh) * | 2014-04-29 | 2014-10-08 | 苏州大学 | 采用感知语谱结构边界参数的语音端点检测算法 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN105489224A (zh) * | 2014-09-15 | 2016-04-13 | 讯飞智元信息科技有限公司 | 一种基于麦克风阵列的语音降噪方法及系统 |
CN106255026A (zh) * | 2016-08-08 | 2016-12-21 | 浙江大学 | 基于语音模式识别和振动反馈的助残装置及交互方法 |
CN106952653A (zh) * | 2017-03-15 | 2017-07-14 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107146614A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音信号处理方法、装置及电子设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005520211A (ja) | 2002-03-05 | 2005-07-07 | アリフコム | ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法 |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
EP1923866B1 (en) * | 2005-08-11 | 2014-01-01 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program |
KR20090037845A (ko) * | 2008-12-18 | 2009-04-16 | 삼성전자주식회사 | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 |
CN101510426B (zh) * | 2009-03-23 | 2013-03-27 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN102196109B (zh) * | 2010-03-01 | 2013-07-31 | 联芯科技有限公司 | 一种残留回声检测方法和系统 |
JP5672770B2 (ja) * | 2010-05-19 | 2015-02-18 | 富士通株式会社 | マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム |
JP2012150237A (ja) | 2011-01-18 | 2012-08-09 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
US9100735B1 (en) * | 2011-02-10 | 2015-08-04 | Dolby Laboratories Licensing Corporation | Vector noise cancellation |
US9354310B2 (en) | 2011-03-03 | 2016-05-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
CN103248992B (zh) * | 2012-02-08 | 2016-01-20 | 中国科学院声学研究所 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
KR20130101943A (ko) * | 2012-03-06 | 2013-09-16 | 삼성전자주식회사 | 음원 끝점 검출 장치 및 그 방법 |
CN102800325A (zh) * | 2012-08-31 | 2012-11-28 | 厦门大学 | 一种超声波辅助麦克风阵列语音增强装置 |
CN102969002B (zh) | 2012-11-28 | 2014-09-03 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
CN103544959A (zh) * | 2013-10-25 | 2014-01-29 | 华南理工大学 | 一种基于无线定位麦克风阵列语音增强的通话系统及方法 |
CN104038880B (zh) * | 2014-06-26 | 2017-06-23 | 南京工程学院 | 一种双耳助听器语音增强方法 |
WO2016076237A1 (ja) * | 2014-11-10 | 2016-05-19 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
KR102444061B1 (ko) * | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN107742522B (zh) * | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
-
2017
- 2017-10-23 CN CN201710994211.5A patent/CN107742522B/zh active Active
-
2018
- 2018-07-16 US US16/757,905 patent/US11081123B2/en active Active
- 2018-07-16 KR KR1020207014257A patent/KR102469516B1/ko active IP Right Grant
- 2018-07-16 JP JP2020542484A patent/JP7011075B2/ja active Active
- 2018-07-16 WO PCT/CN2018/095765 patent/WO2019080553A1/zh unknown
- 2018-07-16 EP EP18870140.3A patent/EP3703053B1/en active Active
- 2018-07-16 PL PL18870140.3T patent/PL3703053T3/pl unknown
- 2018-07-16 HU HUE18870140A patent/HUE065302T2/hu unknown
- 2018-07-16 ES ES18870140T patent/ES2967132T3/es active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007086554A (ja) * | 2005-09-26 | 2007-04-05 | Toshiba Tec Corp | 音声認識装置及び音声認識処理用プログラム |
JP2007147732A (ja) * | 2005-11-24 | 2007-06-14 | Japan Advanced Institute Of Science & Technology Hokuriku | 雑音低減システム及び雑音低減方法 |
WO2010098546A2 (ko) * | 2009-02-27 | 2010-09-02 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP2011257627A (ja) * | 2010-06-10 | 2011-12-22 | Murata Mach Ltd | 音声認識装置と認識方法 |
EP2755204A1 (en) * | 2013-01-15 | 2014-07-16 | Fujitsu Limited | Noise suppression device and method |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN104091593A (zh) * | 2014-04-29 | 2014-10-08 | 苏州大学 | 采用感知语谱结构边界参数的语音端点检测算法 |
CN105489224A (zh) * | 2014-09-15 | 2016-04-13 | 讯飞智元信息科技有限公司 | 一种基于麦克风阵列的语音降噪方法及系统 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN106255026A (zh) * | 2016-08-08 | 2016-12-21 | 浙江大学 | 基于语音模式识别和振动反馈的助残装置及交互方法 |
CN106952653A (zh) * | 2017-03-15 | 2017-07-14 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107146614A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音信号处理方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
.《IEEE Transactions on Audio, Speech, and Language Processing》.2007,第 1114 – 1122页. * |
Speech enhancement and recognition using circular microphone array for service robots;D Kong;《Proceedings 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems》;20031103;第3516-3521页 * |
Xianyu Zhao.Closely Coupled Array Processing and Model-Based Compensation for MicrophoneArray Speech Recognition * |
语音识别技术在人机交互中的应用研究;高雪;《中国硕士学位论文全文数据库 信息科技辑》;20170815;I136-30 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019080553A1 (zh) | 2019-05-02 |
EP3703053C0 (en) | 2023-10-18 |
US20200342887A1 (en) | 2020-10-29 |
ES2967132T3 (es) | 2024-04-26 |
EP3703053A1 (en) | 2020-09-02 |
PL3703053T3 (pl) | 2024-03-11 |
JP7011075B2 (ja) | 2022-01-26 |
US11081123B2 (en) | 2021-08-03 |
JP2021500634A (ja) | 2021-01-07 |
EP3703053A4 (en) | 2021-07-21 |
KR102469516B1 (ko) | 2022-11-21 |
CN107742522A (zh) | 2018-02-27 |
EP3703053B1 (en) | 2023-10-18 |
KR20200066366A (ko) | 2020-06-09 |
HUE065302T2 (hu) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107742522B (zh) | 基于麦克风阵列的目标语音获取方法及装置 | |
JP5436814B2 (ja) | ビームフォーミングおよびポストフィルタリングの組み合わせによる雑音低減 | |
CN110085248B (zh) | 个人通信中降噪和回波消除时的噪声估计 | |
US8396234B2 (en) | Method for reducing noise in an input signal of a hearing device as well as a hearing device | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
CN108922554B (zh) | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 | |
US8891785B2 (en) | Processing signals | |
US20210176558A1 (en) | Earphone signal processing method and system, and earphone | |
US20140185826A1 (en) | Noise suppression apparatus and control method thereof | |
CN108766456B (zh) | 一种语音处理方法及装置 | |
JP7041157B2 (ja) | ビームフォーミングを使用するオーディオキャプチャ | |
KR20090056598A (ko) | 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치 | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
KR20060051582A (ko) | 잡음 감소를 위한 다중채널 적응형 음성 신호 처리 | |
CN106887239A (zh) | 用于高度相关的混合物的增强型盲源分离算法 | |
CN1953059A (zh) | 一种噪声消除装置和方法 | |
JP2011526114A (ja) | オーディオ処理 | |
CN106031196B (zh) | 信号处理装置、方法以及程序 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
CN110140171B (zh) | 使用波束形成的音频捕获 | |
US20190035382A1 (en) | Adaptive post filtering | |
CN113782046B (zh) | 一种用于远距离语音识别的麦克风阵列拾音方法及系统 | |
Gomez et al. | Robustness to speaker position in distant-talking automatic speech recognition | |
Zhao et al. | Closely coupled array processing and model-based compensation for microphone array speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |