CN113689869B - 语音增强方法、电子设备以及计算机可读存储介质 - Google Patents
语音增强方法、电子设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113689869B CN113689869B CN202110846654.6A CN202110846654A CN113689869B CN 113689869 B CN113689869 B CN 113689869B CN 202110846654 A CN202110846654 A CN 202110846654A CN 113689869 B CN113689869 B CN 113689869B
- Authority
- CN
- China
- Prior art keywords
- matrix
- voice
- enhanced
- signal covariance
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 395
- 230000001131 transforming effect Effects 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种语音增强方法、电子设备以及计算机可读存储介质,语音增强方法包括:获取到待增强语音;基于待增强语音确定待增强语音的信号协方差矩阵的逆矩阵;利用待增强语音中目标语音对应的掩码矩阵确定目标语音的目标信号协方差矩阵;通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强。通过上述方式,本发明能够实现对待增强语音的语音增强,并提高语音增强效果。
Description
技术领域
本发明涉及语音处理领域,特别是涉及语音增强方法、电子设备以及计算机可读存储介质。
背景技术
在电话视频会议以及人工智能等领域,语音传播往往扮演着重要的角色。但在实际场景中,目标语音信号常常会被各种各样的噪声或背景音干扰,因此,目标语音信号需要进行语音增强,以提高目标语音的语义传达。
而传统的语音增强常常通过波束形成技术进行语音增强,但波束形成技术需要事先估计目标语音信号的方位信息,然后通过波束形成器滤除目标语音信号的方位以外的信号,以此来达到语音增强的目的。
但实际中很难准确的获得目标语音信号的方位信息,因而语音增强效果不佳。
发明内容
本发明提供了一种语音增强方法、电子设备以及计算机可读存储介质,以解决提高语音增强效果。
为解决上述技术问题,本发明提供一种语音增强方法,包括:获取到待增强语音;基于待增强语音确定待增强语音的信号协方差矩阵的逆矩阵;利用待增强语音中目标语音对应的掩码矩阵确定目标语音的目标信号协方差矩阵;通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强。
其中,基于待增强语音确定待增强语音的信号协方差矩阵的逆矩阵的步骤包括:对待增强语音进行变换,得到待增强语音当前帧对应的矩阵;以及获取到待增强语音初始帧的信号协方差矩阵的逆矩阵;利用当前帧的矩阵以及矩阵的共轭转置矩阵、初始帧的信号协方差矩阵的逆矩阵基于第一递推关系式得到待增强语音当前帧的信号协方差矩阵的逆矩阵;其中,第一递推关系式表征当前帧的信号协方差矩阵的逆矩阵与前一帧的信号协方差矩阵的逆矩阵的对应关系。
其中,第一递推关系式是通过待增强语音的当前帧的矩阵以及共轭转置矩阵构建第一对应关系后,对第一对应关系进行逆运算后得到的。
其中,利用待增强语音中目标语音对应的掩码矩阵确定目标语音的目标信号协方差矩阵的步骤包括:利用待增强语音对应的矩阵得到待增强语音的当前帧存在目标语音的概率;获取到初始帧的掩码矩阵;利用初始帧的掩码矩阵以及概率得到待增强语音信号的当前帧的掩码矩阵;利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵得到目标语音的当前帧的目标信号协方差矩阵。
其中,利用初始帧的掩码矩阵以及概率得到待增强语音信号的当前帧的掩码矩阵的步骤,包括:利用概率以及初始帧的掩码矩阵,基于第二递推关系式得到当前帧的掩码矩阵;其中,第二递推关系式表征当前帧的掩码矩阵与前一帧的掩码矩阵的对应关系;利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵得到目标语音的目标信号协方差矩阵的步骤,包括:利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵、初始帧的目标信号协方差矩阵利用第三递推关系式得到当前帧的目标信号协方差矩阵;其中,第三递推关系式表征当前帧的目标信号协方差矩阵与前一帧的目标信号协方差矩阵的对应关系。
其中,第三递推关系式是通过待增强语音的当前帧的矩阵以及共轭转置矩阵、目标信号协方差矩阵以及当前帧的掩码矩阵构建第二对应关系后,对第二对应关系进行变换后得到的。
其中,获取到初始帧的掩码矩阵的步骤包括:获取到单位矩阵、值范围在0-1的随机矩阵或服从正态分布的概率矩阵;将单位矩阵、值范围在0-1的随机矩阵或服从正态分布的概率矩阵确定为初始帧的掩码矩阵。
其中,通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强的步骤包括:通过当前帧的信号协方差矩阵的逆矩阵和当前帧的目标信号协方差矩阵计算得到当前帧的波束形成器系数;将波束形成器系数与当前帧的待增强语音进行相乘,以对当前帧的待增强语音进行增强。
其中,获取到待增强语音的步骤包括:获取到时域形式的初始语音;依次对初始语音进行加窗、分帧以及傅里叶变换,得到时频域信号形式的待增强语音。
其中,通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强的步骤之后还包括:对语音增强后的语音进行傅里叶逆变换得到语音增强后的时域形式的语音信号。
为解决上述技术问题,本发明还提供了一种电子设备,电子设备包括:相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一项的语音增强方法。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有程序数据,程序数据能够被执行以实现如上述任一项的语音增强方法。
本发明的有益效果是:区别于现有技术的情况,本发明语音增强方法通过先确定待增强语音的信号协方差矩阵的逆矩阵,再利用待增强语音中目标语音对应的掩码矩阵确定目标语音的目标信号协方差矩阵,最后通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强,本发明能够针对待增强语音中的目标语音进行针对性增强,提高语音增强的效果。
附图说明
图1是本发明提供的语音增强方法一实施例的流程示意图;
图2是本发明提供的语音增强方法另一实施例的流程示意图;
图3是本发明提供的电子设备一实施例的结构示意图;
图4是本发明提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明提供的语音增强方法一实施例的流程示意图。
步骤S11:获取到待增强语音。
获取到待增强语音。其中,可以通过语音接收器获取到待增强语音或通过语音播放器播放的待增强语音。其中,语音接收器包括有线麦克风、无线麦克风、电话听筒等语音接收器。语音播放器包括:智能设备播放器、电话播放器等语音播放器。
在一个具体的应用场景中,可以通过多支麦克风获取到多通道的待增强语音。在另一个具体的应用场景中,也可以通过单个电话听筒获取到单通道的待增强语音。
步骤S12:基于待增强语音确定待增强语音的信号协方差矩阵的逆矩阵。
基于待增强语音确定待增强语音的信号协方差矩阵的逆矩阵。其中,协方差矩阵中的每个元素是各个向量元素之间的协方差。
在一个具体的应用场景中,可以基于待增强语音获得待增强语音的矩阵,再对矩阵进行矩阵变换得到待增强语音的信号协方差矩阵,对信号协方差矩阵进行求逆运算,得到待增强语音的信号协方差矩阵的逆矩阵。
在另一个具体的应用场景中,也可以基于待增强语音确定待增强语音的信号协方差矩阵的伴随矩阵,再基于该伴随矩阵求解逆矩阵,得到待增强语音的信号协方差矩阵的逆矩阵。
具体地计算待增强语音的信号协方差矩阵的逆矩阵的方法在此不做限定。
步骤S13:利用待增强语音中目标语音对应的掩码矩阵确定目标语音的目标信号协方差矩阵。
利用待增强语音中目标语音对应的掩码矩阵来确定目标语音的目标信号协方差矩阵。其中,目标语音指的是待增强语音中需要在增强的语音。在一个具体的应用场景中,当待增强语音为会议记录麦克风所接受的语音时,目标语音为会议发言人的语音,除此之外均为背景音。
其中,掩码矩阵用于对待增强语音进行掩码,以掩盖背景音突出目标语音。在一个具体的应用场景中,可以通过对待增强语音的矩阵的各元素进行目标语音存在的概率估计,概率越大,目标语音存在的概率越大,从而获得待增强语音中目标语音对应的掩码矩阵。在其他应用场景中,也可以通过深度神经网络对待增强语音的矩阵进行过滤,进而得到待增强语音中目标语音对应的掩码矩阵。
而目标信号协方差矩阵为目标语音所对应的信号协方差矩阵。通过目标语音对应的掩码矩阵来突出目标语音,进而来确定目标语音的目标信号协方差矩阵,能够提高目标信号协方差矩阵的准确性和可靠性。
步骤S14:通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强。
通过上述步骤获得的信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强。
在一个具体的应用场景中,可以通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵计算得到波束形成器系数,进而通过波束形成器系数对待增强语音进行语音增强。其中,波束形成器系数为MVDR(Minimum Variance Distortionless Response)波束形成器系数,通过MVDR波束形成器系数对待增强语音进行处理,能够基于MVDR算法的约束条件让待增强语音的背景音最小化。其中,约束条件是是纯净语音信号保持不变的情况下,使得输出的方差最小化。则能够完成背景音信号的最小化。
在另一个具体的应用场景中,也可以通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵直接与待增强语音的矩阵进行结合计算,以对待增强语音进行语音增强。
在另一个具体的应用场景中,也可以基于信号协方差矩阵的逆矩阵和目标信号协方差矩阵通过机器学习的方式对待增强语音进行语音增强。具体地增强方式在此不做限定。
通过上述方法,本实施例的语音增强方法通过先确定待增强语音的信号协方差矩阵的逆矩阵,再利用待增强语音中目标语音对应的掩码矩阵确定目标语音的目标信号协方差矩阵,最后通过信号协方差矩阵的逆矩阵和目标信号协方差矩阵对待增强语音进行语音增强,本实施例能够针对待增强语音中的目标语音进行针对性增强,提高语音增强的效果。
请参阅图2,图2是本发明提供的语音增强方法另一实施例的流程示意图。
步骤S21:获取到时域形式的初始语音,依次对初始语音进行加窗、分帧以及傅里叶变换,得到时频域信号形式的待增强语音。
获取到时域形式的初始语音,再对初始语音进行加窗、分帧以及傅里叶变换,得到时频域信号形式的待增强语音。在一个具体的应用场景中,可以通过多支麦克风获取到多通道的时域形式的初始语音,再依次对初始语音进行加窗、分帧以及傅里叶变换(FFT,Fourier Transformation),得到时频域信号形式的待增强语音。其中,时频域信号形式的待增强语音中包括多帧待增强语音。
在其他实施例中,也可以直接获取时频域信号形式的待增强语音,例如:获取到处理器或其他处理设备输出的时频域信号形式的待增强语音。
步骤S22:对待增强语音进行变换,得到待增强语音当前帧对应的矩阵,以及获取到待增强语音初始帧的信号协方差矩阵的逆矩阵,利用当前帧的矩阵以及矩阵的共轭转置矩阵、初始帧的信号协方差矩阵的逆矩阵基于第一递推关系式得到待增强语音当前帧的信号协方差矩阵的逆矩阵。
对时频域信号形式的待增强语音进行变换,得到待增强语音当前帧对应的矩阵。在一个具体的应用场景中,本实施例的语音增强可以在麦克风获取语音时实时对当前每一帧的语音进行增强,也可以在麦克风获取完整个语音后,依次对每一帧的语音进行增强。
在本实施例中可以将时频域信号形式的待增强语音当前帧对应的矩阵表示为:
y(f,t)=[y1,f,t,y2,f,t,...yJ,f,t]T
其中,y(f,t)为时频域信号形式当前帧对应的矩阵,后续公式中的yf,t与当前帧对应的矩阵y(f,t)相同,y(f,t)表示在时间t或第t帧,频率f处的J×1维的观测向量。J为麦克风的数目,即y1,f,t,y2,f,t,...yJ,f,t为J支麦克风分别对应的语音信号。T为矩阵的转置。t为当前帧时间,或任意帧时间。f为当前频率或任意频率。
再获取到待增强语音初始帧的信号协方差矩阵的逆矩阵,也就是初始帧为t为0时刻的语音帧。进而利用当前帧的矩阵以及矩阵的共轭转置矩阵、初始帧的信号协方差矩阵的逆矩阵基于第一递推关系式得到待增强语音当前帧的信号协方差矩阵的逆矩阵。其中,第一递推关系式表征当前帧的信号协方差矩阵的逆矩阵与前一帧的信号协方差矩阵的逆矩阵的对应关系。
具体地,第一递推关系式如下:
其中,为待增强语音的第t帧的信号协方差矩阵的逆矩阵,为第t-1帧的信号协方差矩阵的逆矩阵,yf,t为待增强语音的第t帧的矩阵,为待增强语音第t帧矩阵的共轭转置矩阵。t为当前帧时刻,当待增强语音共有s帧时,t可以包括(0、1、2...s),具体基于当前所针对的语音帧设置。
第一递推关系式表征当前帧的信号协方差矩阵的逆矩阵与前一帧的信号协方差矩阵的逆矩阵的对应关系,也就是每相邻两帧的信号协方差矩阵的逆矩阵之间的对应关系。因此,当获取到待增强语音初始帧的信号协方差矩阵的逆矩阵,即将待增强语音初始帧的信号协方差矩阵的逆矩阵代入到t为0第一递推关系式中,计算得到第一帧的信号协方差矩阵的逆矩阵,进而再将第一帧的信号协方差矩阵的逆矩阵代入到t为1第一递推关系式中,计算得到第二帧的信号协方差矩阵的逆矩阵,依次类推,则可以利用各帧的矩阵以及各帧矩阵的共轭转置矩阵、初始帧的信号协方差矩阵的逆矩阵基于第一递推关系式得到待增强语音所有帧的信号协方差矩阵的逆矩阵。
本步骤获取待增强语音所有帧的信号协方差矩阵的逆矩阵的方法仅需获取各帧的矩阵以及各帧矩阵的共轭转置矩阵以及初始帧的信号协方差矩阵后,基于第一递推关系式进行计算即可得到,无需依次针对待增强语音中每一帧的信号协方差矩阵的逆矩阵进行求逆运算,本步骤大量减少了语音增强过程中的计算量和计算复杂度,提高了语音增强效率。
其中,第一递推关系式是通过待增强语音的当前帧的矩阵以及共轭转置矩阵构建第一对应关系后,对第一对应关系进行逆运算后得到的。具体地,可以基于待增强语音的当前帧的矩阵以及共轭转置矩阵构建当前帧的信号协方差矩阵与前一帧的信号协方差矩阵的第一对应关系,第一对应关系如下:
其中,Yf,t为待增强语音第t帧的信号协方差矩阵,Yf,t-1为待增强语音第t-1帧的信号协方差矩阵。对第一对应关系,即公式(2)进行求逆运算,则获得第一递推关系式,即公式(1)。
第一对应关系表征了待增强语音相邻帧的信号协方差矩阵之间的迭代更新方式,只需对第一对应关系进行一次求逆运算,即可得到第一递推关系式,进而基于第一递推关系式以及初始帧的信号协方差矩阵的逆矩阵递推求得待增强语音每一帧的信号协方差矩阵的逆矩阵,此过程大量减少了获取待增强语音每一帧的信号协方差矩阵的逆矩阵的计算量与计算复杂度,提高了获取待增强语音每一帧的信号协方差矩阵的逆矩阵的速度和效率。
其中,初始帧的信号协方差矩阵的逆矩阵可以包括单位矩阵、值范围在0-1的随机矩阵或服从正态分布的概率矩阵等简单矩阵,从而将初始帧的信号协方差矩阵代入到第一递推关系式后,能够进一步减少递推计算的计算量,提高计算效率。
步骤S23:利用待增强语音对应的矩阵得到待增强语音的当前帧存在目标语音的概率,获取到初始帧的掩码矩阵,利用初始帧的掩码矩阵以及概率得到待增强语音信号的当前帧的掩码矩阵,利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵得到目标语音的当前帧的目标信号协方差矩阵。
利用待增强语音对应的矩阵得到待增强语音的当前帧存在目标语音的概率,再获取到初始帧的掩码矩阵,利用初始帧的掩码矩阵以及概率得到待增强语音信号的当前帧的掩码矩阵,进而利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵得到目标语音的当前帧的目标信号协方差矩阵。
在一个具体的应用场景中,可以通过下列公式计算待增强语音的当前帧存在目标语音的概率:
其中,p(yf,t)为待增强语音的第t帧存在目标语音的概率,e是自然常数,而其中,J为麦克风的数目,tr()表示求矩阵的迹,为目标矩阵协方差矩阵。而目标矩阵协方差矩阵可以通过第二对应关系进行获取,第二对应关系请具体参阅公式(5)。
获取到待增强语音的当前帧存在目标语音的概率后,利用概率以及初始帧的掩码矩阵,基于第二递推关系式得到当前帧的掩码矩阵。第二递推关系式如下:
其中,为第t帧的掩码矩阵,为第t-1帧的掩码矩阵。超参数α和β满足关系α+β=1。
其中,第二递推关系式表征当前帧的掩码矩阵与前一帧的掩码矩阵的对应关系;因此,获取到初始帧的掩码矩阵后,将初始帧的掩码矩阵代入到第二递推关系式中,即可求得第一帧的掩码矩阵,进而将第一帧的掩码矩阵再次代入到第二递推关系式中,即可求得第二帧的掩码矩阵中,依次类推,即可获得待增强语音信号的所有帧的掩码矩阵。
其中,初始帧的掩码矩阵可以包括单位矩阵、值范围在0-1的随机矩阵或服从正态分布的概率矩阵等元素在0-1之间的简单矩阵,从而将初始帧的掩码矩阵代入到第一递推关系式后,能够进一步减少递推计算的计算量,提高计算效率。
获得待增强语音信号的所有帧的掩码矩阵后,利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵得到目标语音的目标信号协方差矩阵。具体地,利用当前帧的掩码矩阵、当前帧对应的矩阵以及共轭转置矩阵、初始帧的目标信号协方差矩阵利用第三递推关系式得到当前帧的目标信号协方差矩阵,第三递推关系式具体如下:
其中,为第t帧的目标信号协方差矩阵,为第t-1帧的目标信号协方差矩阵。为第t帧的掩码矩阵,由上述可知第三递推关系式表征当前帧的目标信号协方差矩阵与前一帧的目标信号协方差矩阵的对应关系。只要将初始帧的目标信号协方差矩阵代入到第三递推关系式中,即可依次递推出所有帧的目标信号协方差矩阵。
而第三递推关系式是通过待增强语音的当前帧的矩阵以及共轭转置矩阵、目标信号协方差矩阵以及当前帧的掩码矩阵构建第二对应关系后,对第二对应关系进行变换后得到的。
第二对应关系具体如下:
其中,为第t帧的掩码矩阵,为整个目标语音的目标信号协方差矩阵,通过第t帧的掩码矩阵对第t帧的待增强语音的矩阵以及第t帧的待增强语音的共轭转置矩阵进行掩码,即可获得目标语音的目标信号协方差矩阵
获得目标语音的目标信号协方差矩阵后,基于公式(6)进行转换可以得到初始帧的目标信号协方差矩阵,进而将初始帧的目标信号协方差矩阵代入到公式(5),完成所有帧的目标信号协方差矩阵的计算。
步骤S24:通过当前帧的信号协方差矩阵的逆矩阵和当前帧的目标信号协方差矩阵计算得到当前帧的波束形成器系数,将波束形成器系数与当前帧的待增强语音进行相乘,以对当前帧的待增强语音进行增强。
获取到所有帧的信号协方差矩阵的逆矩阵和所有帧的目标信号协方差矩阵后,通过每一帧的信号协方差矩阵的逆矩阵和每一帧的目标信号协方差矩阵计算得到每一帧的波束形成器系数。
在一个具体的应用场景中,通过当前帧的信号协方差矩阵的逆矩阵和当前帧的目标信号协方差矩阵计算得到当前帧的波束形成器系数的具体计算方式如下:
其中,wf,t为第t帧的波束形成器系数,也称为MVDR滤波器系数,tr()表示求矩阵的迹,d是一个M*1维的0-1向量,本实施例中可以为1或0。
将第t帧的波束形成器系数wf,t进行转换,得到整个波束形成器系数的矩阵Wf,进而对整个波束形成器系数的矩阵Wf进行转换,得到整个波束形成器系数的共轭转置矩阵
将波束形成器系数与每一帧的待增强语音进行相乘,即可通过波束形成器系数对每一帧的待增强语音进行增强。
在一个具体的应用场景中,以当前帧为例进行计算,具体计算过程如下:
其中,为第t帧的待增强语音yf,t经过整个波束形成器系数的共轭转置矩阵进行增强后的第t帧的待增强语音。本实施例中,第t帧即为当前帧。
通过上述公式(7)对每一帧的待增强语音进行增强,即可实现对整个待增强语音的语音增强。
在整个待增强语音的语音增强后,对语音增强后的语音进行傅里叶逆变换得到语音增强后的时域形式的语音信号,便于通过语音增强后的时域形式的语音信号进行应用,例如匹配声音播放器的格式等。
通过上述步骤,本实施例的语音增强方法先构建当前帧的掩码矩阵与前一帧的掩码矩阵的对应关系以及当前帧的信号协方差矩阵的逆矩阵与前一帧的信号协方差矩阵的逆矩阵的对应关系,然后再获取初始帧的掩码矩阵以及信号协方差矩阵的逆矩阵,进而通过上述对应关系依次递推出所有帧的掩码矩阵以及信号协方差矩阵的逆矩阵,进而基于上述矩阵计算得到波束形成器系数,最后利用波束形成器系数完成对每一帧的待增强语音的语音增强,本实施例能避免对每一帧的信号协方差矩阵进行求逆运算,而是直接基于初始帧的信号协方差矩阵进行递推获取,从而大量减少了计算信号协方差矩阵的逆矩阵的计算量和计算复杂度,且能避免单独计算每一帧的掩码矩阵,而是基于初始帧的掩码矩阵进行递推获取,进一步减少了掩码矩阵的计算量和计算复杂度,且本实施例还获取到数值简单的初始帧的掩码矩阵和信号协方差矩阵的逆矩阵,从而降低递推计算难度,提高计算效果。因此,本实施例的语音增强方法能够大幅降低计算量与计算复杂度,提高计算效率。减少计算失误,提高语音增强效果。
基于同样的发明构思,本发明还提出了一种电子设备,该电子设备能够被执行以实现上述任一实施例的语音增强方法,请参阅图3,图3是本发明提供的电子设备一实施例的结构示意图,电子设备包括处理器31以及存储器32。
处理器31用于执行存储器32中存储的程序指令,以实现上述任一语音增强方法实施例的步骤。在一个具体的实施场景中,电子设备可以包括但不限于:微型计算机、服务器,此外,电子设备还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器31用于控制其自身以及存储器32以实现上述任一语音增强方法实施例的步骤。处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器31可以由集成电路芯片共同实现。
上述方案,能够实现对待增强语音的语音增强。
基于同样的发明构思,本发明还提出了一种计算机可读存储介质,请参阅图4,图4是本发明提供的计算机可读存储介质一实施例的结构示意图。计算机可读存储介质40中存储有至少一个程序数据41,程序数据41用于实现上述任一方法。在一个实施例中,计算机可读存储介质40包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种语音增强方法,其特征在于,所述语音增强方法包括:
获取到待增强语音;
基于所述待增强语音确定所述待增强语音的信号协方差矩阵的逆矩阵;
利用所述待增强语音中目标语音对应的掩码矩阵确定所述目标语音的目标信号协方差矩阵;
通过所述信号协方差矩阵的逆矩阵和所述目标信号协方差矩阵对所述待增强语音进行语音增强。
2.根据权利要求1所述的语音增强方法,其特征在于,所述基于所述待增强语音确定所述待增强语音的信号协方差矩阵的逆矩阵的步骤包括:
对所述待增强语音进行变换,得到所述待增强语音当前帧对应的矩阵;以及
获取到所述待增强语音初始帧的信号协方差矩阵的逆矩阵;
利用所述当前帧的所述矩阵以及所述矩阵的共轭转置矩阵、所述初始帧的信号协方差矩阵的逆矩阵基于第一递推关系式得到所述待增强语音当前帧的信号协方差矩阵的逆矩阵;其中,所述第一递推关系式表征当前帧的信号协方差矩阵的逆矩阵与前一帧的信号协方差矩阵的逆矩阵的对应关系;
其中,利用各帧的矩阵以及各帧矩阵的共轭转置矩阵、初始帧的信号协方差矩阵的逆矩阵基于所述第一递推关系式得到待增强语音所有帧的信号协方差矩阵的逆矩阵,以得到所述待增强语音的信号协方差矩阵的逆矩阵。
3.根据权利要求2所述的语音增强方法,其特征在于,
所述第一递推关系式是通过所述待增强语音的当前帧的矩阵以及共轭转置矩阵构建第一对应关系后,对所述第一对应关系进行逆运算后得到的。
4.根据权利要求1所述的语音增强方法,其特征在于,所述利用所述待增强语音中目标语音对应的掩码矩阵确定所述目标语音的目标信号协方差矩阵的步骤包括:
利用所述待增强语音对应的矩阵得到所述待增强语音的当前帧存在目标语音的概率;
获取到初始帧的掩码矩阵;
利用所述初始帧的掩码矩阵以及所述概率得到所述待增强语音的当前帧的掩码矩阵;
利用所述当前帧的掩码矩阵、所述当前帧对应的矩阵以及共轭转置矩阵、初始帧的目标信号协方差矩阵利用第三递推关系式得到所述当前帧的目标信号协方差矩阵;其中,所述第三递推关系式表征所述当前帧的目标信号协方差矩阵与前一帧的目标信号协方差矩阵的对应关系;
将初始帧的目标信号协方差矩阵代入所述第三递推关系式中,依次递推出所有帧的目标信号协方差矩阵,以得到所述目标语音的目标信号协方差矩阵。
5.根据权利要求4所述的语音增强方法,其特征在于,所述利用所述初始帧的掩码矩阵以及所述概率得到所述待增强语音的当前帧的掩码矩阵的步骤,包括:
利用所述概率以及所述初始帧的掩码矩阵,基于第二递推关系式得到所述当前帧的掩码矩阵;其中,所述第二递推关系式表征所述当前帧的掩码矩阵与前一帧的掩码矩阵的对应关系。
6.根据权利要求5所述的语音增强方法,其特征在于,
所述第三递推关系式是通过所述待增强语音的当前帧的矩阵以及共轭转置矩阵、目标信号协方差矩阵以及当前帧的掩码矩阵构建第二对应关系后,对所述第二对应关系进行变换后得到的。
7.根据权利要求4-6任一项所述的语音增强方法,其特征在于,所述获取到初始帧的掩码矩阵的步骤包括:
获取到单位矩阵、值范围在0-1的随机矩阵或服从正态分布的概率矩阵;
将所述单位矩阵、值范围在0-1的随机矩阵或服从正态分布的概率矩阵确定为所述初始帧的掩码矩阵。
8.根据权利要求1所述的语音增强方法,其特征在于,所述通过所述信号协方差矩阵的逆矩阵和所述目标信号协方差矩阵对所述待增强语音进行语音增强的步骤包括:
通过当前帧的所述信号协方差矩阵的逆矩阵和当前帧的所述目标信号协方差矩阵计算得到当前帧的波束形成器系数;
将波束形成器系数与当前帧的待增强语音进行相乘,以对当前帧的待增强语音进行增强。
9.根据权利要求1所述的语音增强方法,其特征在于,所述获取到待增强语音的步骤包括:
获取到时域形式的初始语音;
依次对所述初始语音进行加窗、分帧以及傅里叶变换,得到时频域信号形式的所述待增强语音。
10.根据权利要求9所述的语音增强方法,其特征在于,所述通过所述信号协方差矩阵的逆矩阵和所述目标信号协方差矩阵对所述待增强语音进行语音增强的步骤之后还包括:
对语音增强后的语音进行傅里叶逆变换得到语音增强后的时域形式的语音信号。
11.一种电子设备,其特征在于,所述电子设备包括:相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至10任一项所述的语音增强方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序数据,所述程序数据能够被执行以实现如权利要求1-10任一项所述的语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846654.6A CN113689869B (zh) | 2021-07-26 | 2021-07-26 | 语音增强方法、电子设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846654.6A CN113689869B (zh) | 2021-07-26 | 2021-07-26 | 语音增强方法、电子设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113689869A CN113689869A (zh) | 2021-11-23 |
CN113689869B true CN113689869B (zh) | 2024-08-16 |
Family
ID=78577913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110846654.6A Active CN113689869B (zh) | 2021-07-26 | 2021-07-26 | 语音增强方法、电子设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689869B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392180B1 (en) * | 1998-01-09 | 2008-06-24 | At&T Corp. | System and method of coding sound signals using sound enhancement |
CN112799017A (zh) * | 2021-04-07 | 2021-05-14 | 浙江华创视讯科技有限公司 | 声源定位方法、装置、存储介质及电子设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5124014B2 (ja) * | 2008-03-06 | 2013-01-23 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
KR20100065078A (ko) * | 2008-12-05 | 2010-06-15 | 한국전자통신연구원 | 무선 통신 시스템에서 인접기지국의 간섭이 존재하는 채널 환경에서 채널을 추정하는 방법 및 그 장치 |
CN102568493B (zh) * | 2012-02-24 | 2013-09-04 | 大连理工大学 | 一种基于最大矩阵对角率的欠定盲分离方法 |
DK2701145T3 (en) * | 2012-08-24 | 2017-01-16 | Retune DSP ApS | Noise cancellation for use with noise reduction and echo cancellation in personal communication |
CN103077719B (zh) * | 2012-12-27 | 2015-01-07 | 安徽科大讯飞信息科技股份有限公司 | 一种基于矩阵离线预计算的快速全空间因子处理方法 |
WO2016117793A1 (ko) * | 2015-01-23 | 2016-07-28 | 삼성전자 주식회사 | 음성 향상 방법 및 시스템 |
CN108269582B (zh) * | 2018-01-24 | 2021-06-01 | 厦门美图之家科技有限公司 | 一种基于双麦克风阵列的定向拾音方法及计算设备 |
CN108806712B (zh) * | 2018-04-27 | 2020-08-18 | 深圳市沃特沃德股份有限公司 | 减少频域处理量的方法与装置 |
CN109036452A (zh) * | 2018-09-05 | 2018-12-18 | 北京邮电大学 | 一种语音信息处理方法、装置、电子设备及存储介质 |
CN110148420A (zh) * | 2019-06-30 | 2019-08-20 | 桂林电子科技大学 | 一种适用于噪声环境下的语音识别方法 |
CN110600050B (zh) * | 2019-09-12 | 2022-04-15 | 深圳市华创技术有限公司 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
CN111599375B (zh) * | 2020-04-26 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种语音交互中多路语音的白化方法及其装置 |
CN112420068B (zh) * | 2020-10-23 | 2022-05-03 | 四川长虹电器股份有限公司 | 一种基于Mel频率尺度分频的快速自适应波束形成方法 |
-
2021
- 2021-07-26 CN CN202110846654.6A patent/CN113689869B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392180B1 (en) * | 1998-01-09 | 2008-06-24 | At&T Corp. | System and method of coding sound signals using sound enhancement |
CN112799017A (zh) * | 2021-04-07 | 2021-05-14 | 浙江华创视讯科技有限公司 | 声源定位方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113689869A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN111508519B (zh) | 一种音频信号人声增强的方法及装置 | |
US10839820B2 (en) | Voice processing method, apparatus, device and storage medium | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
CN112565981B (zh) | 啸叫抑制方法、装置、助听器及存储介质 | |
CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
CN111402917A (zh) | 音频信号处理方法及装置、存储介质 | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
CN112951261A (zh) | 声源定位方法、装置及语音设备 | |
CN115359804A (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN113689869B (zh) | 语音增强方法、电子设备以及计算机可读存储介质 | |
CN112802490A (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
CN113782043A (zh) | 语音采集方法、装置、电子设备及计算机可读存储介质 | |
CN113689870B (zh) | 一种多通道语音增强方法及其装置、终端、可读存储介质 | |
CN111613211B (zh) | 特定词语音的处理方法及装置 | |
Ukai et al. | Multistage SIMO-model-based blind source separation combining frequency-domain ICA and time-domain ICA | |
CN113393850A (zh) | 一种用于端到端时域声源分离系统的参数化听觉滤波器组 | |
CN112802487A (zh) | 回声处理方法、装置及系统 | |
CN111724808A (zh) | 音频信号处理方法、装置、终端及存储介质 | |
US20240296856A1 (en) | Audio data processing method and apparatus, device, storage medium, and program product | |
CN112533120B (zh) | 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 | |
CN117153178B (zh) | 音频信号处理方法、装置、电子设备和存储介质 | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
CN110931038B (zh) | 一种语音增强方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |