WO2016167141A1 - 信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- WO2016167141A1 WO2016167141A1 PCT/JP2016/060898 JP2016060898W WO2016167141A1 WO 2016167141 A1 WO2016167141 A1 WO 2016167141A1 JP 2016060898 W JP2016060898 W JP 2016060898W WO 2016167141 A1 WO2016167141 A1 WO 2016167141A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- steering vector
- target sound
- noise
- covariance matrix
- generation unit
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 97
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims abstract description 171
- 239000013598 vector Substances 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 91
- 239000006185 dispersion Substances 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 abstract description 8
- 230000002123 temporal effect Effects 0.000 abstract 2
- 230000000295 complement effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/86—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
Definitions
- the present disclosure relates to a signal processing device, a signal processing method, and a program, and in particular, when learning spatial characteristics of noise in beam forming processing, using an observation signal in a time interval including the target sound,
- the present invention relates to a signal processing apparatus, a signal processing method, and a program that can provide a method for suppressing the influence.
- beam forming that enhances target sound coming from a certain direction by suppressing noise using multi-channel input audio signals of a microphone array.
- the minimum dispersion beamformer is a typical method that learns the spatial characteristics of noise in the usage environment and performs adaptive processing ( For example, refer nonpatent literature 1).
- the least-dispersion beamformer learns the spatial properties of noise to form directivity characteristics so as to suppress noise (sounds coming from other directions) while keeping the gain for the direction of arrival of the target sound at 1. .
- the noise learning if the observation signal in the time interval including the target sound is used, the noise learning is hindered by the target sound itself, and the performance of the beamformer is deteriorated.
- the interference sound that did not exist in the time interval used for learning is being heard. When it starts to sound, it cannot suppress the interference sound.
- the present disclosure has been made in view of such a situation.
- learning spatial characteristics of noise in beam forming processing the effect of the target sound is used while using an observation signal in a time interval including the target sound. Therefore, it is possible to provide a method for suppressing the above-described problem.
- a signal processing apparatus includes a covariance matrix calculation unit that calculates a covariance matrix used in a minimum dispersion beamformer from an observation signal in a time interval including a target sound, and a steering vector and noise of the target sound.
- a steering vector generation unit that calculates a steering vector of the target sound and a projection matrix generation unit that calculates a projection matrix that processes the covariance matrix using at least one of the generated steering vector of the target sound and the steering vector of noise
- a filter generation unit that calculates a filter of the minimum dispersion beamformer using a processed covariance matrix obtained by processing the covariance matrix using the projection matrix.
- the signal processing device calculates a covariance matrix used in the minimum variance beamformer from the observation signal in the time interval including the target sound, and calculates the steering vector and noise of the target sound.
- a steering vector is calculated, a projection matrix that processes the covariance matrix is calculated using at least one of the generated steering vector of the target sound and a steering vector of noise, and the covariance matrix is calculated by the projection matrix. Calculating a filter of the minimum dispersion beamformer using a processed covariance matrix obtained by processing.
- a program includes a covariance matrix calculation unit that calculates a covariance matrix used in a minimum dispersion beamformer from an observation signal in a time interval including a target sound, and a steering vector of the target sound.
- a steering vector generation unit for calculating a steering vector for noise, and a projection matrix generation for calculating a projection matrix for processing the covariance matrix using at least one of the generated steering vector for the target sound and the steering vector for noise
- a processing covariance matrix obtained by processing the covariance matrix using the projection matrix and functioning as a filter generation unit that calculates a filter of the minimum dispersion beamformer.
- a covariance matrix used in a minimum variance beamformer is calculated from an observation signal in a time interval including a target sound, and a steering vector of the target sound and a steering vector of noise are calculated and generated. Further, a projection matrix for processing the covariance matrix is calculated using at least one of the steering vector for the target sound and the steering vector for noise, and the processed covariance obtained by processing the covariance matrix using the projection matrix is calculated. A filter of the minimum dispersion beamformer is calculated using a dispersion matrix.
- program can be provided by being transmitted through a transmission medium or by being recorded on a recording medium.
- the signal processing device may be an independent device, or may be an internal block constituting one device.
- the minimum dispersion beamformer suppresses noise (sound coming from directions other than the direction of arrival of the target sound) as much as possible while learning the spatial characteristics of the noise while keeping the gain for the direction of arrival of the target sound at 1. This is a beam forming technique for forming directivity characteristics.
- the spatial property of the minimum dispersion beamformer is expressed by a covariance matrix R ( ⁇ ) described below.
- x m (n) be an acoustic signal observed by an m-th (0 ⁇ m ⁇ M) microphone in a microphone array composed of M microphones.
- n time.
- STFT short time Fourier transform
- X m ( ⁇ , k) narrow band observation signal
- ⁇ represents a frequency
- k represents a frame number for specifying a predetermined frame when the acoustic signal x m (n) is composed of a plurality of frames.
- a column vector X ( ⁇ , k) composed of observation signals X 1 ( ⁇ , k),..., X M ( ⁇ , k) of M microphones is expressed by the following equation (1).
- the covariance matrix R ( ⁇ ) is defined by the following equation (2).
- X H ( ⁇ , k) represents a Hermitian transpose of X ( ⁇ , k)
- E [] represents an expected value.
- beam forming can be considered as filtering processing of a column vector X ( ⁇ , k) of an observation signal.
- the filter is represented by w ( ⁇ ) and the output signal after the beam forming process is represented by Y ( ⁇ , k)
- the observed signal X ( ⁇ , k) and the output signal Y ( ⁇ , k) are The relationship of following Formula (3) is formed.
- w ( ⁇ ) is a column vector composed of M elements.
- the output signal Y ( ⁇ , k) after the beam forming process is converted into a time waveform by, for example, an overlap-add method.
- the minimum dispersion beamformer which is one of the various methods, is a method for determining the filter w ( ⁇ ) by the optimization problem of the following equation (4).
- a ( ⁇ , ⁇ ) is a vector representing the transmission characteristic (phase difference) of sound waves coming from the direction ⁇ to each microphone, and is called a steering vector.
- a phase difference corresponding to the sound wave path is generated in the acoustic signal observed by each microphone.
- the steering vector represents the phase difference.
- the steering vector a ( ⁇ , ⁇ ) is expressed by the following equation (5).
- the objective function w H ( ⁇ ) R ( ⁇ ) w ( ⁇ ) in equation (4) represents the variance of the output signal Y ( ⁇ , k) represented by equation (3).
- the name minimum dispersion beamformer comes from minimizing the dispersion of the output signal Y ( ⁇ , k).
- R ⁇ 1 ( ⁇ ) in Expression (6) represents an inverse matrix of R ( ⁇ ).
- the steering vector a ( ⁇ , ⁇ ) and the covariance matrix R ( ⁇ ) may be known.
- a theoretical value can be calculated if the arrangement of each microphone and the arrival direction of the target sound are determined.
- actual measurement values measured in advance for several directions of arrival can be used, or values calculated by arithmetic processing such as interpolation can be used.
- the covariance matrix R ( ⁇ ) is estimated from the observation signal in a practical situation. For example, when the covariance matrix R ( ⁇ ) is obtained by maximum likelihood estimation using the observation signal in the time interval from the frame k s to the frame k e (k s ⁇ k e ), the following equation (7) is used. be able to.
- the minimum dispersion beamformer is very simple in theory, but there are problems in practical use. If the target sound is included in the observation signal used for learning the covariance matrix R ( ⁇ ), there is a problem that the target sound is distorted. One of the major factors is that the steering vector a ( ⁇ , ⁇ ) includes an error. If an error is included in the steering vector a ( ⁇ , ⁇ ), the all-pass characteristic with respect to the true arrival direction of the target sound is not guaranteed, but rather the target sound is minimized in order to minimize the objective function of Equation (4). It will be suppressed.
- the target sound when the target sound is included in the observation signal used for estimating the covariance matrix R ( ⁇ ), the target sound is distorted, while the target sound is included in the observation signal used for estimation. Is not included, there is a problem that it is not possible to suppress the noise that is produced only while the target sound is sounding.
- the present inventors have devised a technique for suppressing the influence of the target sound while using a signal containing the target sound as an observation signal used for estimating the covariance matrix R ( ⁇ ). Below, the method is demonstrated.
- FIG. 1 is a block diagram illustrating a configuration example of a signal processing apparatus that uses a signal including a target sound as an observation signal and suppresses the influence of the target sound in the minimum dispersion beamformer.
- the signal processing apparatus 1 includes a covariance matrix calculation unit 11, a steering vector generation unit 12, a projection matrix generation unit 13, a filter generation unit 14, and a beamforming processing unit 15.
- short-time Fourier transform is performed on the acoustic signals x 1 (n) to x M (n) observed by the microphone array composed of M microphones as input signals.
- the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) of the narrow band converted into the time frequency domain are input. Note that the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) are obtained by omitting the frame numbers of the observation signals X 1 ( ⁇ , k) to X M ( ⁇ , k) described above. Then, beam forming processing is sequentially performed on a plurality of frames.
- the signal processing device 1 will be described as processing for the observation signals X 1 ( ⁇ ) to X 4 ( ⁇ ) in a predetermined time frequency domain ⁇ . The processing described below is performed for each time frequency region ⁇ 1 , ⁇ 2 , ⁇ 3 ,.
- the covariance matrix calculation unit 11 performs the covariance matrix R ( ⁇ ) from the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) obtained from the time interval in which the desired target sound is produced according to the above-described equation (7). ) And is supplied to the filter generation unit 14.
- observation signals X 1 ( ⁇ ) to X M ( ⁇ ) in the time interval in which the desired target sound is sounding are observed signals X 1 ( ⁇ ) to X M ( ⁇ ) is input, and the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) in which the target sound is sounding may be extracted, or may be obtained from the time interval in which the desired target sound is sounding. Alternatively, only the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) may be input to the signal processing device 1.
- the steering vector generation unit 12 includes, for example, a target sound arrival direction ⁇ s and noise arrival directions ⁇ n1 , ⁇ n2 ,..., ⁇ nN detected using a predetermined method such as a sound source direction estimation technique. Supplied. That is, in the present technology, the target sound as the detection result regardless of the method in which the direction of arrival ⁇ s of the target sound and the direction of arrival of noise ⁇ n1 , ⁇ n2 ,. arrival direction theta s and noise arrival direction theta n1 of, theta n2, ⁇ ⁇ , theta nN is supplied to the steering vector generation unit 12.
- N represents the number of known noise sources, and the number N of noise sources is smaller than the number M of microphones (0 ⁇ N ⁇ M). Further, it is assumed that the direction of arrival ⁇ s of the target sound is different from the direction of arrival of noise ⁇ n1 , ⁇ n2 ,.
- the steering vector generator 12 calculates the steering vector a ( ⁇ , ⁇ ) for each of the target sound and noise from the information of the direction of arrival ⁇ s of the target sound and the direction of noise arrival ⁇ n1 , ⁇ n2 ,. To do. That is, the steering vector generator 12 uses the equation (5) to obtain the target sound steering vector a ( ⁇ , ⁇ s ) and noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),. , a ( ⁇ , ⁇ nN ) is calculated.
- the steering vector generator 12 generates the target sound steering vector a ( ⁇ , ⁇ s ) and noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),..., A ( ⁇ , ⁇ nN ) is supplied to the projection matrix generator 13.
- the steering vector generation unit 12 also supplies the target sound steering vector a ( ⁇ , ⁇ s ) to the filter generation unit 14.
- the projection matrix generator 13 converts the target sound steering vector a ( ⁇ , ⁇ s ) into N noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),. , calculates the component q para on subspace W where theta nN) is put, in the case of orthogonal decomposed into components q perp on the orthogonal complement W perp, the component q perp on orthogonal complement W perp.
- the projection matrix generation unit 13 generates a vector p expressing the projection direction from the calculated component q perp on the orthogonal complement space W perp and calculates the projection matrix P using the vector p.
- projection matrix generating unit 13 for example, by Gram-Schmidt process (Gram-Schmidt), subspace W
- Gram-Schmidt Gram-Schmidt process
- the orthonormal basis ⁇ e 1 , e 2 ,..., E N ⁇ of the subspace W by the Gram-Schmidt orthonormalization method can be calculated by the following equation (8).
- the projection matrix generation unit 13 uses the orthonormal basis ⁇ e 1 , e 2 ,..., E N ⁇ of the calculated subspace W to calculate the component q perp on the orthogonal complement space W perp as follows: It calculates with Formula (9).
- the projection matrix generation unit 13 calculates the vector p representing the projection direction by normalizing the magnitude of the component q perp to 1 using Equation (10).
- the projection matrix generation unit 13 calculates the projection matrix P from the vector p obtained from Expression (10) according to Expression (11).
- I in Expression (11) represents a unit matrix.
- the calculated projection matrix P is supplied to the filter generation unit 14. Further, as described above, the covariance matrix calculation unit 11 also supplies the covariance matrix R ( ⁇ ) to the filter generation unit 14.
- the filter generation unit 14 uses the projection matrix P generated by the projection matrix generation unit 13 to calculate a processed covariance matrix S ( ⁇ ) obtained by processing the covariance matrix R ( ⁇ ) by the following equation (12).
- ⁇ is a regularization parameter having a positive value.
- the regularization parameter physically means a noise level, and its value is determined based on a noise floor such as a noise generated in an electric circuit including a microphone array and a calculation error.
- the filter generation unit 14 processes the covariance matrix S ( ⁇ ) obtained by processing the covariance matrix R ( ⁇ ) and the steering vector a ( ⁇ of the target sound supplied from the steering vector generation unit 12. , ⁇ s ), the filter w ( ⁇ ) of the minimum dispersion beamformer is calculated.
- the filter w ( ⁇ ) of the minimum dispersion beamformer is calculated by the following equation (13) in which the covariance matrix R ( ⁇ ) in the equation (6) is replaced with the processed covariance matrix S ( ⁇ ).
- the filter generation unit 14 supplies the calculated filter w ( ⁇ ) to the beam forming processing unit 15.
- the beamforming processing unit 15 uses the filter w ( ⁇ ) supplied from the filter generation unit 14 to perform beamforming processing on the column vector X ( ⁇ ) of the observation signal. That is, the beamforming processing unit 15 executes Expression (3) for multiplying the M observation signals X 1 ( ⁇ ) to X M ( ⁇ ) input to the signal processing device 1 by the filter w ( ⁇ ).
- the signal Y ( ⁇ , k) after the beam forming process which is the calculation result of Expression (3), is output from the signal processing apparatus 1 as an output signal.
- the signal processing device 1 includes observation signals X 1 ( ⁇ ) to which acoustic signals x 1 (n) to x M (n) observed by M microphones are subjected to short-time Fourier transform (STFT). X M ( ⁇ ) is input.
- STFT short-time Fourier transform
- step S1 the covariance matrix calculation unit 11 calculates the covariance matrix R ( ⁇ ) from the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) in the time interval in which the desired target sound is sounding. More specifically, the covariance matrix calculation unit 11 uses the column vectors X ( ⁇ ) of the observation signals X 1 ( ⁇ ) to X M ( ⁇ ) in the time interval in which the desired target sound is sounded, According to (7), the covariance matrix R ( ⁇ ) is calculated and supplied to the filter generation unit 14.
- step S2 the steering vector generation unit 12 determines the steering vector a ( ⁇ ,) for each of the target sound and noise from the information on the direction of arrival ⁇ s of the target sound and the direction of arrival ⁇ n1 , ⁇ n2 ,. ⁇ ) is calculated. That is, the steering vector generation unit 12 calculates the target sound steering vector a ( ⁇ , ⁇ s ) and noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),. , a ( ⁇ , ⁇ nN ) is calculated.
- the target sound steering vector a ( ⁇ , ⁇ s ) is supplied to the projection matrix generation unit 13 and the filter generation unit 14, and the noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),. , a ( ⁇ , ⁇ nN ) is supplied to the projection matrix generation unit 13.
- step S3 the projection matrix generator 13 converts the target sound steering vector a ( ⁇ , ⁇ s ) into N noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),. , a ( ⁇ , ⁇ nN ) calculates the component q para on the subspace W perp and the component q perp on the orthogonal complement space W perp when orthogonally decomposed into the component q perp on the orthogonal complement space W perp To do.
- step S4 the projection matrix generation unit 13 generates a vector p representing the projection direction from the calculated component q perp on the orthogonal complement space W perp , and further uses the vector p to calculate the projection by Expression (11).
- the matrix P is calculated.
- the calculated projection matrix P is supplied to the filter generation unit 14.
- step S ⁇ b> 5 the filter generation unit 14 uses the projection matrix P generated by the projection matrix generation unit 13 to process the covariance matrix R ( ⁇ ) by Expression (12), thereby processing the covariance matrix S ( ⁇ ). Is calculated.
- step S ⁇ b> 6 the filter generation unit 14 uses the calculated processing covariance matrix S ( ⁇ ) and the target sound steering vector a ( ⁇ , ⁇ s ) supplied from the steering vector generation unit 12 to perform the minimum variance.
- the beamformer filter w ( ⁇ ) is calculated.
- the calculated filter w ( ⁇ ) is supplied to the beamforming processing unit 15.
- step S ⁇ b> 7 the beamforming processing unit 15 performs beamforming processing using the filter w ( ⁇ ) supplied from the filter generation unit 14. That is, the beamforming processing unit 15 executes Expression (3) for multiplying the M observation signals X 1 ( ⁇ ) to X M ( ⁇ ) input to the signal processing device 1 by the filter w ( ⁇ ).
- the signal Y ( ⁇ , k) after the beam forming process is output from the signal processing device 1 as an output signal, and the output signal Y ( ⁇ , k) is, for example, a superposition addition method in the subsequent stage of the signal processing device 1. Is converted into a time waveform.
- the beam forming process of FIG. 2 is repeatedly executed in predetermined frame units.
- the filter generation unit 14 can obtain the projection matrix P, the covariance matrix R ( ⁇ ), and the target sound steering vector a ( ⁇ , ⁇ s ) to calculate the filter w ( ⁇ ),
- the order in which the projection matrix P, the covariance matrix R ( ⁇ ), and the target sound steering vector a ( ⁇ , ⁇ s ) are calculated is not limited.
- FIG. 3 is a diagram for explaining the concept of the vector p in the signal processing apparatus 1 when the number M of microphones is 3 and the number N of noise sources is 2.
- the vector p expressing the projection direction calculated by the equation (10) is the two noise steering vectors a ( ⁇ , ⁇ n1 ) and a (a) of the target sound steering vector a ( ⁇ , ⁇ s ).
- ( ⁇ , ⁇ n2 ) represents a component orthogonal to the subspace W spanned.
- the beam forming process of the signal processing apparatus 1 suppresses the influence of the target sound by removing the component due to the target sound from the covariance matrix R ( ⁇ ) using the arrival direction ⁇ s of the target sound.
- a processing covariance matrix S ( ⁇ ) is generated, and beamforming is executed using the processing covariance matrix S ( ⁇ ) as a covariance matrix.
- the beam forming process of the signal processing apparatus 1 uses the noise arrival directions ⁇ n1 , ⁇ n2 ,..., ⁇ nN to perform processing so that the components caused by the noise are retained. Therefore, the amount of noise suppression is maintained.
- the enhancement effect of the target sound is that the N noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ), among the steering vectors a ( ⁇ , ⁇ s ) of the target sound, .., Inferior to a method of generating a projection matrix P that projects onto a subspace orthogonal to a component (vector p) orthogonal to a subspace W spanned by a ( ⁇ , ⁇ nN ) (hereinafter referred to as the main projection method).
- the main projection method two simpler projection methods will be described.
- the first simple projection method is a method of projecting onto a subspace W spanned by N noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),..., A ( ⁇ , ⁇ nN ). It is.
- the projection matrix generation unit 13 obtains N noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),..., A ( ⁇ , ⁇ nN ) according to the equation (8). ), The orthonormal basis ⁇ e 1 , e 2 ,..., E N ⁇ of the subspace W is calculated.
- the projection matrix generation unit 13 calculates the projection matrix P by the following equation (14) using the orthonormal basis ⁇ e 1 , e 2 ,..., E N ⁇ of the obtained subspace W. To do.
- the first simple projection method does not calculate the vector p, but N steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ),..., A ( ⁇ , ⁇ nN ) Is projected onto the subspace W.
- the projection method has a mechanism capable of suppressing diffusive noise and reverberation to some extent as described below.
- the subspace W includes information on the direct wave component of noise mainly given a direction, while the subspace U mainly contains diffusive noise, reverberation component, etc. to which no direction is given. It is included.
- the filter is optimized so that the variance is minimized by projecting onto the subspace V including the subspace U. Therefore, not only the noise given the direction of arrival but also diffuse noise and reverberation components to some extent. It is possible to suppress.
- the first simple projection method does not include the partial space U, it is not possible to suppress non-directional diffusive noise, reverberation, and the like.
- the second simple projecting method is a method of projecting in the direction of the steering vector a ( ⁇ , ⁇ s ) of the target sound.
- the projection matrix generation unit 13 sets a vector p obtained by normalizing the steering vector a ( ⁇ , ⁇ s ) of the target sound to 1 according to Expression (16).
- the projection matrix generation unit 13 calculates the projection matrix P using Equation (17) using this vector p.
- I in Expression (17) represents a unit matrix.
- the target sound steering vector a ( ⁇ , ⁇ s ) is spread with N noise steering vectors a ( ⁇ , ⁇ n1 ), a ( ⁇ , ⁇ n2 ), ..., a ( ⁇ , ⁇ nN ). Since the component on the subspace W is also included, the orthogonal projection using the target sound steering vector a ( ⁇ , ⁇ s ) distorts information about noise included in the covariance matrix R ( ⁇ ).
- the second simple projection method is a fixed beamformer and is equivalent to the delayed sum beamformer which is the most basic method.
- the effect of enhancing the target sound is the largest in this projection method, followed by the first simple projection method and then the second simple projection method.
- the signal processing apparatus 1 is configured to select any of the projection methods to be executed according to user settings and the like, so that any of the main projection method, the first simple projection method, and the second simple projection method can be executed. be able to. Alternatively, any one or two of the main projection method, the first simple projection method, and the second simple projection method may be executed.
- the series of processes described above can be executed by hardware or can be executed by software.
- a program constituting the software is installed in the computer.
- the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing various programs by installing a computer incorporated in dedicated hardware.
- FIG. 4 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- An input / output interface 105 is further connected to the bus 104.
- An input unit 106, an output unit 107, a storage unit 108, a communication unit 109, and a drive 110 are connected to the input / output interface 105.
- the input unit 106 includes a keyboard, a mouse, a microphone, and the like.
- the output unit 107 includes a display, a speaker, and the like.
- the storage unit 108 includes a hard disk, a nonvolatile memory, and the like.
- the communication unit 109 includes a network interface or the like.
- the drive 110 drives a removable recording medium 111 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
- the CPU 101 loads, for example, the program stored in the storage unit 108 to the RAM 103 via the input / output interface 105 and the bus 104 and executes the program. Forming processing is performed.
- the CPU 101 performs a process of performing a short-time Fourier transform on the acoustic signals x 1 (n) to x M (n) observed by the microphone array, and the superposition addition method for the output signal Y ( ⁇ , k).
- the process of converting to a time waveform can also be executed together.
- the program can be installed in the storage unit 108 via the input / output interface 105 by attaching the removable recording medium 111 to the drive 110. Further, the program can be received by the communication unit 109 and installed in the storage unit 108 via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting. In addition, the program can be installed in the ROM 102 or the storage unit 108 in advance.
- the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
- the signal processing apparatus 1 a form in which all or part of the plurality of embodiments described above are combined can be adopted.
- the processing performed by the signal processing device 1 can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
- each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
- the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
- a covariance matrix calculation unit for calculating a covariance matrix used in the minimum dispersion beamformer from an observation signal in a time interval including the target sound;
- a steering vector generation unit for calculating at least one of the target sound steering vector or the noise steering vector;
- a projection matrix generation unit that calculates a projection matrix that processes the covariance matrix using at least one of the calculated steering vector of the target sound or the steering vector of the noise;
- a signal processing apparatus comprising: a filter generation unit that calculates a filter of the minimum dispersion beamformer using a processed covariance matrix obtained by processing the covariance matrix using the projection matrix.
- the steering vector generation unit calculates both a steering vector of the target sound and a steering vector of the noise,
- the projection matrix generation unit obtains a component orthogonal to a subspace spanned by the noise steering vector from among the steering vector of the target sound, and calculates the projection matrix projected onto the subspace orthogonal to the component.
- the signal processing device 1).
- (3) The steering vector generation unit calculates both a steering vector of the target sound and a steering vector of the noise, The signal processing device according to (1) or (2), wherein the projection matrix generation unit obtains a partial space spanned by the steering vector of the noise and calculates the projection matrix projected onto the partial space.
- the steering vector generation unit calculates a steering vector of the target sound, The signal processing device according to any one of (1) to (3), wherein the projection matrix generation unit calculates the projection matrix that is projected in a direction of a steering vector of the target sound.
- the projection matrix generation unit calculates the projection matrix that excludes only the information about the target sound while preserving the information about the noise among the spatial property information of the covariance matrix.
- the signal processing device according to any one of (5).
- the signal processor Calculate the covariance matrix used by the minimum variance beamformer from the observed signal in the time interval containing the target sound, Calculating at least one of the target sound steering vector or the noise steering vector; Using at least one of the calculated steering vector of the target sound or the steering vector of the noise, a projection matrix for processing the covariance matrix is calculated,
- a signal processing method including a step of calculating a filter of the minimum dispersion beamformer using a processed covariance matrix obtained by processing the covariance matrix with the projection matrix.
- a covariance matrix calculation unit for calculating a covariance matrix used in the minimum dispersion beamformer from an observation signal in a time interval including the target sound;
- a steering vector generation unit for calculating at least one of the target sound steering vector or the noise steering vector;
- a projection matrix generation unit that calculates a projection matrix that processes the covariance matrix using at least one of the calculated steering vector of the target sound or the steering vector of the noise;
- 1 signal processing device 11 covariance matrix operation unit, 12 steering vector generation unit, 13 projection matrix generation unit, 14 filter generation unit, 15 beamforming processing unit, 101 CPU, 102 ROM, 103 RAM, 106 input unit, 107 output Part, 108 storage part, 109 communication part, 110 drive
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Radar, Positioning & Navigation (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本開示は、ビームフォーミング処理において雑音の空間的性質を学習する際に、目的音が含まれる時間区間の観測信号を用いつつ、目的音の影響を抑える方法を提供することができるようにする信号処理装置、信号処理方法、およびプログラムに関する。 共分散行列演算部は、目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する。ステアリングベクトル生成部は、目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出する。射影行列生成部は、算出された目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を用いて、共分散行列を加工する射影行列を算出する。フィルタ生成部は、射影行列により共分散行列を加工して得られた加工共分散行列を用いて、最小分散ビームフォーマのフィルタを算出する。本開示は、例えば、信号処理装置等に適用できる。
Description
本開示は、信号処理装置、信号処理方法、およびプログラムに関し、特に、ビームフォーミング処理において雑音の空間的性質を学習する際に、目的音が含まれる時間区間の観測信号を用いつつ、目的音の影響を抑える方法を提供することができるようにする信号処理装置、信号処理方法、およびプログラムに関する。
マイクロホンアレイの多チャンネル入力音声信号を用いて雑音を抑圧することで、ある方向から到来する目的音を強調するビームフォーミングと呼ばれる技術がある。ビームフォーミングには様々な目的・方針で設計・開発された手法が存在するが、使用環境における雑音の空間的性質を学習し適応的に処理を行う代表的な手法に最小分散ビームフォーマがある(例えば、非特許文献1参照)。
最小分散ビームフォーマは、雑音の空間的性質を学習することで、目的音の到来方向に対するゲインを1に保ちつつ、雑音(その他の方向から到来する音)を抑圧するように指向特性を形成する。しかし、雑音の学習を行う際に、目的音が含まれる時間区間の観測信号を用いると、雑音の学習が目的音自体に妨げられ、ビームフォーマの性能が低下する。そのための対処として、目的音が含まれない時間区間の入力信号を用いて雑音の空間的性質を学習する方式もある。
Harry L. Van Trees, "Optimum Array Processing", Wiley-Interscience, 2002.
しかし、目的音が含まれない時間区間の入力信号を用いて雑音の空間的性質を学習する方式では、学習に用いた時間区間には存在しなかった妨害音が目的音の鳴っている最中に鳴り始めた場合に、その妨害音を抑圧することができない。
本開示は、このような状況に鑑みてなされたものであり、ビームフォーミング処理において雑音の空間的性質を学習する際に、目的音が含まれる時間区間の観測信号を用いつつ、目的音の影響を抑える方法を提供することができるようにするものである。
本開示の一側面の信号処理装置は、目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、前記目的音のステアリングベクトルと雑音のステアリングベクトルを算出するステアリングベクトル生成部と、生成された前記目的音のステアリングベクトルと雑音のステアリングベクトルの少なくとも1つを用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部とを備える。
本開示の一側面の信号処理方法は、信号処理装置が、目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出し、前記目的音のステアリングベクトルと雑音のステアリングベクトルを算出し、生成された前記目的音のステアリングベクトルと雑音のステアリングベクトルの少なくとも1つを用いて、前記共分散行列を加工する射影行列を算出し、前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するステップを含む。
本開示の一側面のプログラムは、コンピュータを、目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、前記目的音のステアリングベクトルと雑音のステアリングベクトルを算出するステアリングベクトル生成部と、生成された前記目的音のステアリングベクトルと雑音のステアリングベクトルの少なくとも1つを用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部として機能させるためのものである。
本開示の一側面においては、目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列が算出され、前記目的音のステアリングベクトルと雑音のステアリングベクトルが算出され、生成された前記目的音のステアリングベクトルと雑音のステアリングベクトルの少なくとも1つを用いて、前記共分散行列を加工する射影行列が算出され、前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタが算出される。
なお、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
信号処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本開示の一側面によれば、ビームフォーミング処理において雑音の空間的性質を学習する際に、目的音が含まれる時間区間の観測信号を用いつつ、目的音の影響を抑える方法を提供することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
以下、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.最小分散ビームフォーマの説明
2.本実施の形態に係る信号処理装置のブロック図
3.ビームフォーミング処理のフローチャート
4.本ビームフォーミング処理の特徴
5.その他の簡易射影方法1
6.その他の簡易射影方法2
7.コンピュータ構成例
1.最小分散ビームフォーマの説明
2.本実施の形態に係る信号処理装置のブロック図
3.ビームフォーミング処理のフローチャート
4.本ビームフォーミング処理の特徴
5.その他の簡易射影方法1
6.その他の簡易射影方法2
7.コンピュータ構成例
<1.最小分散ビームフォーマの説明>
初めに、最小分散ビームフォーマについて説明する。
初めに、最小分散ビームフォーマについて説明する。
最小分散ビームフォーマは、雑音の空間的性質を学習することで、目的音の到来方向に対するゲインを1に保ちつつ、雑音(目的音の到来方向以外の方向から到来する音)を可能な限り抑えるように指向特性を形成するビームフォーミング手法である。最小分散ビームフォーマの空間的性質は、以下で説明する共分散行列R(ω)によって表現される。
まず、M個のマイクロホンで構成されるマイクロホンアレイのうちのm番目(0<m≦M)のマイクロホンで観測された音響信号をxm(n)とする。nは、時刻を表す。この音響信号xm(n)に対して短時間フーリエ変換(Short time Fourier transform, STFT)を適用すると、時間周波数領域に変換された狭帯域の観測信号Xm(ω,k)が得られる。ここで、ωは周波数を表し、kは音響信号xm(n)が複数のフレームで構成される場合の所定のフレームを特定するフレーム番号を表す。
各マイクロホンでは、配置と音波の到来方向に応じて、異なるゲイン・遅延で音響信号が観測される。このとき、共分散行列R(ω)は次式(2)で定義される。
ここで、XH(ω,k)は、X(ω,k)のエルミート転置を、E[]は、期待値を表す。
さて、ビームフォーミングは、観測信号の列ベクトルX(ω,k)のフィルタリング処理と考えることができる。フィルタをw(ω)で表し、ビームフォーミング処理後の出力信号をY(ω,k)で表すと、観測信号X(ω,k)と出力信号Y(ω,k)との間には、次式(3)の関係が成り立つ。
ビームフォーミング処理後の出力信号Y(ω,k)は、例えば、重畳加算(Overlap-add)法等によって、時間波形に変換される。
ビームフォーミングには、フィルタw(ω)の設計方法の違いにより、様々な方式が存在する。その様々な方式のなかの一つである最小分散ビームフォーマは、次式(4)の最適化問題によってフィルタw(ω)を決定する方式である。
ここで、a(ω,θ)は、方向θから到来する音波の各マイクロホンへの伝達特性(位相差)を表現したベクトルで、ステアリングベクトルと呼ばれる。マイクロホンアレイに対してある方向から音波が到来した場合、各マイクロホンで観測される音響信号には音波の経路に応じた位相差が生じる。ステアリングベクトルはその位相差を表現する。
式(4)の制約条件aH(ω,θ)w(ω)=1は、方向θから到来する音波のゲインを1に保つことを意味し、この制約条件により、目的音の全域通過特性を保証している。
式(4)の目的関数wH(ω)R(ω)w(ω)は、式(3)で表される出力信号Y(ω,k)の分散を表す。最小分散ビームフォーマという名前は、出力信号Y(ω,k)の分散を最小化することに由来する。
従って、式(6)によれば、最小分散ビームフォーマを実現するためには、ステアリングベクトルa(ω,θ)と共分散行列R(ω)が分かれば良い。
ステアリングベクトルa(ω,θ)については、各マイクロホンの配置や目的音の到来方向が決まれば理論値を算出することができる。あるいは、予めいくつかの到来方向について計測した実測値を用いたり、それらから補間等の演算処理で算出される値を用いたりすることもできる。
共分散行列R(ω)については、実用場面では観測信号から推定することとなる。例えば、フレームksからフレームke(ks<ke)までの時間区間の観測信号を用いて、最尤推定により共分散行列R(ω)を求める場合、次式(7)で算出することができる。
最小分散ビームフォーマは理論的には非常にシンプルであるが、実用場面では課題が存在する。共分散行列R(ω)の学習に用いる観測信号に目的音が含まれていると、目的音が歪んでしまうという問題がある。これは、ステアリングベクトルa(ω,θ)に誤差が含まれていることが大きな要因の一つである。ステアリングベクトルa(ω,θ)に誤差が含まれていると、目的音の真の到来方向に対する全域通過特性が保証されず、むしろ式(4)の目的関数を最小化するために目的音まで抑圧されてしまう。
この問題を回避するため、たとえば、共分散行列R(ω)を、目的音の鳴っていない時間区間(例えば、目的音の鳴り始める直前)の観測信号から推定する方法がある。この方法は、目的音以外の雑音が定常的であることを期待した方法である。共分散行列R(ω)には目的音に関する情報が含まれていないため、式(4)の最適化問題によって目的音が抑圧されてしまうことを防ぐことができる。
しかし、このような、目的音の鳴っていない時間区間の観測信号を用いるという方法を採用した場合、目的音が鳴っている間にのみ鳴った雑音が存在した際に、その雑音を抑圧することができない。
つまり、最小分散ビームフォーマにおいては、共分散行列R(ω)の推定に用いる観測信号に目的音が含まれていた場合には目的音が歪んでしまう一方で、推定に用いる観測信号に目的音が含まれないようにした場合には、目的音が鳴っている間にのみ鳴った雑音を抑圧することができない、という問題を抱えている。
そこで、本件発明者は、共分散行列R(ω)の推定に用いる観測信号として、目的音が含まれている信号を用いつつ、目的音の影響を抑える手法を考案した。以下では、その手法について説明する。
<2.本実施の形態に係る信号処理装置のブロック図>
図1は、最小分散ビームフォーマにおいて、観測信号として目的音が含まれている信号を用いつつ、目的音の影響を抑えるようにした信号処理装置の構成例を示すブロック図である。
図1は、最小分散ビームフォーマにおいて、観測信号として目的音が含まれている信号を用いつつ、目的音の影響を抑えるようにした信号処理装置の構成例を示すブロック図である。
信号処理装置1は、共分散行列演算部11、ステアリングベクトル生成部12、射影行列生成部13、フィルタ生成部14、及び、ビームフォーミング処理部15を備える。
信号処理装置1には、入力信号として、M個のマイクロホンからなるマイクロホンアレイで観測された音響信号x1(n)乃至xM(n)に対して短時間フーリエ変換(STFT)が施された、時間周波数領域に変換された狭帯域の観測信号X1(ω)乃至XM(ω)が入力される。なお、観測信号X1(ω)乃至XM(ω)は、上述した観測信号X1(ω,k)乃至XM(ω,k)のフレーム番号を省略したものであり、信号処理装置1では、ビームフォーミング処理が、複数のフレームに対して順次行われる。
また、音響信号x1(n)乃至xM(n)に対して短時間フーリエ変換を施すことにより、複数の時間周波数領域ω1, ω2, ω3, ・・・の狭帯域の観測信号X1(ω1)乃至XM(ω1), X1(ω2)乃至XM(ω2), X1(ω3)乃至XM(ω3) , ・・・が得られる。信号処理装置1は、説明を簡単にするため、所定の時間周波数領域ωの観測信号X1(ω)乃至X4(ω)に対する処理として説明を行うが、実際には、信号処理装置1は、各時間周波数領域ω1, ω2, ω3, ・・・ごとに、以下に説明する処理を行う。
信号処理装置1に入力されたM個の観測信号X1(ω)乃至XM(ω)は、共分散行列演算部11とビームフォーミング処理部15に供給される。
共分散行列演算部11は、上述した式(7)に従い、所望の目的音の鳴っている時間区間から得られた観測信号X1(ω)乃至XM(ω)から共分散行列R(ω)を算出し、フィルタ生成部14に供給する。
なお、所望の目的音の鳴っている時間区間の観測信号X1(ω)乃至XM(ω)は、目的音の有無の両方を含む所定期間の観測信号X1(ω)乃至XM(ω)が入力されて、そのなかで目的音の鳴っている観測信号X1(ω)乃至XM(ω)が抽出されてもよいし、所望の目的音の鳴っている時間区間から得られた観測信号X1(ω)乃至XM(ω)のみが信号処理装置1に入力されるのでもよい。
ステアリングベクトル生成部12には、例えば、音源方向推定技術等の所定の手法を用いて検出された、目的音の到来方向θsと雑音の到来方向θn1, θn2,・・,θnNが供給される。即ち、本技術では、目的音の到来方向θsと雑音の到来方向θn1, θn2,・・,θnNが、どのような手法で検出されるかは問わず、検出結果としての目的音の到来方向θsと雑音の到来方向θn1, θn2,・・,θnNが、ステアリングベクトル生成部12に供給される。Nは既知の雑音源の数を表し、雑音源の数Nはマイクロホンの個数Mより少ないものとする(0<N<M)。また、目的音の到来方向θsは、雑音の到来方向θn1, θn2,・・,θnNとは異なる方向であるとする。
ステアリングベクトル生成部12は、目的音の到来方向θsと雑音の到来方向θn1, θn2,・・,θnNの情報から、目的音と雑音それぞれのステアリングベクトルa(ω,θ)を算出する。即ち、ステアリングベクトル生成部12は、式(5)により、目的音のステアリングベクトルa(ω,θs)及び雑音のステアリングベクトルa(ω,θn1) ,a(ω,θn2) ,・・,a(ω,θnN)を算出する。
ステアリングベクトル生成部12は、生成した目的音のステアリングベクトルa(ω,θs)及び雑音のステアリングベクトルa(ω,θn1) ,a(ω,θn2) ,・・,a(ω,θnN)を、射影行列生成部13に供給する。また、ステアリングベクトル生成部12は、目的音のステアリングベクトルa(ω,θs)については、フィルタ生成部14にも供給する。
射影行列生成部13は、目的音のステアリングベクトルa(ω,θs)を、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間W上の成分qparaと、その直交補空間Wperp上の成分qperpに直交分解した場合の、直交補空間Wperp上の成分qperpを算出する。
さらに、射影行列生成部13は、算出した直交補空間Wperp上の成分qperpから、射影方向を表現するベクトルpを生成し、ベクトルpを用いて射影行列Pを算出する。
具体的には、まず、直交補空間Wperp上の成分qperpを算出するため、射影行列生成部13は、例えば、グラム・シュミット(Gram-Schmidt)の正規直交化法により、部分空間Wの正規直交基底{e1,e2,・・・,eN}を算出する。
式(8)によれば、elは、l=1のとき、a(ω,θn1)により算出され、2≦l≦Nのとき、a(ω,θnl)とe1,・・・,el-1を用いて算出される。
算出された射影行列Pは、フィルタ生成部14に供給される。また、フィルタ生成部14には、上述したように、共分散行列演算部11から、共分散行列R(ω)も供給される。
フィルタ生成部14は、射影行列生成部13で生成された射影行列Pを用いて、共分散行列R(ω)を、次式(12)により加工した加工共分散行列S(ω)を算出する。
式(12)のλは、正の値を持つ正則化パラメータである。正則化パラメータは、物理的にはノイズレベルを意味し、その値は、マイクロホンアレイを含む電気回路で生じる雑音や演算誤差等のノイズフロアに基づいて決定される。
次に、フィルタ生成部14は、共分散行列R(ω)を加工して得られた加工共分散行列S(ω)と、ステアリングベクトル生成部12から供給された目的音のステアリングベクトルa(ω,θs)とを用いて、最小分散ビームフォーマのフィルタw(ω)を算出する。最小分散ビームフォーマのフィルタw(ω)は、式(6)の共分散行列R(ω)を、加工共分散行列S(ω)に置き換えた次式(13)により計算される。
フィルタ生成部14は、算出されたフィルタw(ω)をビームフォーミング処理部15に供給する。
ビームフォーミング処理部15は、フィルタ生成部14から供給されたフィルタw(ω)を用いて、観測信号の列ベクトルX(ω)に対してビームフォーミング処理を行う。すなわち、ビームフォーミング処理部15は、信号処理装置1に入力されたM個の観測信号X1(ω)乃至XM(ω)にフィルタw(ω)を乗算する式(3)を実行する。
式(3)の演算結果であるビームフォーミング処理後の信号Y(ω,k)が、出力信号として、信号処理装置1から出力される。
<3.ビームフォーミング処理のフローチャート>
図2のフローチャートを参照して、信号処理装置1が実行するビームフォーミング処理について説明する。
図2のフローチャートを参照して、信号処理装置1が実行するビームフォーミング処理について説明する。
信号処理装置1には、M個のマイクロホンで観測された音響信号x1(n)乃至xM(n)に対して短時間フーリエ変換(STFT)が施された観測信号X1(ω)乃至XM(ω)が入力される。
ステップS1において、共分散行列演算部11は、所望の目的音の鳴っている時間区間の観測信号X1(ω)乃至XM(ω)から共分散行列R(ω)を算出する。より具体的には、共分散行列演算部11は、所望の目的音の鳴っている時間区間の観測信号X1(ω)乃至XM(ω)の列ベクトルX(ω)を用いて、式(7)に従い、共分散行列R(ω)を算出し、フィルタ生成部14に供給する。
ステップS2において、ステアリングベクトル生成部12は、目的音の到来方向θsと雑音の到来方向θn1, θn2,・・,θnNの情報から、目的音と雑音それぞれのステアリングベクトルa(ω,θ)を算出する。即ち、ステアリングベクトル生成部12は、式(5)により、目的音のステアリングベクトルa(ω,θs)及び雑音のステアリングベクトルa(ω,θn1),a(ω,θn2) ,・・,a(ω,θnN)を算出する。
目的音のステアリングベクトルa(ω,θs)は、射影行列生成部13とフィルタ生成部14に供給され、雑音のステアリングベクトルa(ω,θn1),a(ω,θn2) ,・・,a(ω,θnN)は、射影行列生成部13に供給される。
ステップS3において、射影行列生成部13は、目的音のステアリングベクトルa(ω,θs)を、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間W上の成分qparaと、その直交補空間Wperp上の成分qperpに直交分解した場合の、直交補空間Wperp上の成分qperpを算出する。
ステップS4において、射影行列生成部13は、算出した直交補空間Wperp上の成分qperpから、射影方向を表現するベクトルpを生成し、さらにベクトルpを用いて、式(11)により、射影行列Pを算出する。算出された射影行列Pは、フィルタ生成部14に供給される。
ステップS5において、フィルタ生成部14は、射影行列生成部13で生成された射影行列Pを用いて、共分散行列R(ω)を、式(12)により加工した加工共分散行列S(ω)を算出する。
ステップS6において、フィルタ生成部14は、算出した加工共分散行列S(ω)と、ステアリングベクトル生成部12から供給された目的音のステアリングベクトルa(ω,θs)とを用いて、最小分散ビームフォーマのフィルタw(ω)を算出する。算出されたフィルタw(ω)は、ビームフォーミング処理部15に供給される。
ステップS7において、ビームフォーミング処理部15は、フィルタ生成部14から供給されたフィルタw(ω)を用いてビームフォーミング処理を行う。すなわち、ビームフォーミング処理部15は、信号処理装置1に入力されたM個の観測信号X1(ω)乃至XM(ω)にフィルタw(ω)を乗算する式(3)を実行する。
ビームフォーミング処理後の信号Y(ω,k)が、出力信号として、信号処理装置1から出力され、出力信号Y(ω,k)は、信号処理装置1の後段において、例えば、重畳加算法等によって、時間波形に変換される。
図2のビームフォーミング処理は、短時間フーリエ変換後の複数の時間周波数領域ω1, ω2, ω3, ・・・それぞれに対して実行される。時間方向については、所定のフレーム単位で、図2のビームフォーミング処理が繰り返し実行される。
なお、図2で説明したビームフォーミング処理では、各ステップの処理が順番に実行されるように説明したが、いくつかのステップの処理については処理の順番を逆にしたり、あるいは、並列に実行することも可能である。換言すれば、フィルタ生成部14が、フィルタw(ω)の算出のために射影行列P、共分散行列R(ω)、目的音のステアリングベクトルa(ω,θs)を得ることができれば、それまでの射影行列P、共分散行列R(ω)、目的音のステアリングベクトルa(ω,θs)を算出する順番は限定されない。
<4.本ビームフォーミング処理の特徴>
図3は、マイクロホンの個数Mが3、かつ、雑音源の個数Nが2である場合の、信号処理装置1におけるベクトルpの概念を説明する図である。
図3は、マイクロホンの個数Mが3、かつ、雑音源の個数Nが2である場合の、信号処理装置1におけるベクトルpの概念を説明する図である。
式(10)で算出される、射影方向を表現するベクトルpは、目的音のステアリングベクトルa(ω,θs)のうち、2個の雑音のステアリングベクトルa(ω,θn1)及びa(ω,θn2)が張る部分空間Wに直交する成分を表している。
上述した式(12)のP=(I-ppH)を乗ずる演算は、ベクトルpに直交する部分空間(後述する部分空間V)への射影を意味する。つまり、式(12)の行列S(ω)は、ベクトルpに直交する部分空間への射影を行うことで、共分散行列R(ω)の持つ空間的性質の情報のうち、雑音に関する情報を保存しつつ、目的音に関する情報のみを排除していることになる。
従って、信号処理装置1のビームフォーミング処理は、目的音の到来方向θsを用いて、共分散行列R(ω)から、目的音に起因する成分を取り除くことで、目的音の影響を抑えた加工共分散行列S(ω)を生成し、それを共分散行列としてビームフォーミングを実行する。これにより、目的音が含まれる時間区間の観測信号を用いた場合であっても、目的音に対する歪を抑制することができる。
即ち、ビームフォーミング処理において雑音の空間的性質を学習する際に、目的音が含まれる時間区間の観測信号を用いつつ、目的音の影響を抑える方法を提供することができる。
また、雑音源については、信号処理装置1のビームフォーミング処理では、雑音の到来方向θn1, θn2,・・,θnNを用いて、雑音に起因する成分は保持されるように処理を行うので、雑音の抑圧量は保たれる。
<5.その他の簡易射影方法1>
目的音の強調効果は、上述したように、目的音のステアリングベクトルa(ω,θs)のうち、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間Wに直交する成分(ベクトルp)に直交する部分空間に射影する射影行列Pを生成する方法(以下、本射影手法という。)よりも劣るが、より簡易的な2つの射影方法について説明する。
目的音の強調効果は、上述したように、目的音のステアリングベクトルa(ω,θs)のうち、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間Wに直交する成分(ベクトルp)に直交する部分空間に射影する射影行列Pを生成する方法(以下、本射影手法という。)よりも劣るが、より簡易的な2つの射影方法について説明する。
第1の簡易射影方法は、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間Wに射影する方法である。
具体的には、射影行列生成部13は、式(8)により、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間Wの正規直交基底{e1,e2,・・・,eN}を算出する。
従って、第1の簡易射影方法は、ベクトルpを計算せずに、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間Wに射影することになる。
この方法によっても、雑音の到来方向に対して死角が形成され、到来方向の与えられた雑音を抑圧することは可能である。しかし、方向性のない拡散性雑音や残響等までは抑圧することはできない。
これに対して、本射影手法は、以下に説明するように、拡散性雑音や残響もある程度抑圧できるような仕組みとなっている。
本射影手法では、ベクトルpに直交する部分空間に射影を行っているが、射影先の部分空間とN個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間Wとは一致しない。即ち、ベクトルpによる射影先の部分空間をVとすると、次式(15)を満たす部分空間Uが存在する。
部分空間Wには、主に方向が与えられている雑音の直接波成分の情報が含まれている一方で、部分空間Uには、方向が与えられていない主に拡散性雑音や残響成分などが含まれている。本射影手法では、部分空間Uを含む部分空間Vに射影し、その分散が最小になるようフィルタを最適化するため、到来方向の与えられた雑音のみでなく、拡散性雑音や残響成分もある程度抑圧することが可能である。
一方、第1の簡易射影方法には、部分空間Uが含まれていないため、方向性のない拡散性雑音や残響等までは抑圧することができない。
<6.その他の簡易射影方法2>
第2の簡易射影方法は、目的音のステアリングベクトルa(ω,θs)の方向に射影する方法である。
第2の簡易射影方法は、目的音のステアリングベクトルa(ω,θs)の方向に射影する方法である。
目的音のステアリングベクトルa(ω,θs)には、N個の雑音のステアリングベクトルa(ω,θn1),a(ω,θn2),・・,a(ω,θnN)が張る部分空間W上の成分も含んでいるため、目的音のステアリングベクトルa(ω,θs)を用いた直交射影は、共分散行列R(ω)に含まれる雑音に関する情報を歪めてしまう。また、第2の簡易射影方法は、固定ビームフォーマで、最もベーシックな手法である遅延和ビームフォーマと等価になる。
以上より、目的音の強調効果は、本射影手法が最も大きく、次に、第1の簡易射影方法、第2の簡易射影方法の順となる。
信号処理装置1は、本射影手法、第1の簡易射影方法、及び、第2の簡易射影方法のいずれも実行可能として、ユーザ設定等により実行する射影方法を必要に応じて選択する構成とすることができる。あるいはまた、本射影手法、第1の簡易射影方法、または、第2の簡易射影方法のいずれか一つまたは二つを実行可能な構成としてもよい。
<7.コンピュータ構成例>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図4は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、入力部106、出力部107、記憶部108、通信部109、及びドライブ110が接続されている。
入力部106は、キーボード、マウス、マイクロホンなどよりなる。出力部107は、ディスプレイ、スピーカなどよりなる。記憶部108は、ハードディスクや不揮発性のメモリなどよりなる。通信部109は、ネットワークインタフェースなどよりなる。ドライブ110は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体111を駆動する。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述したビームフォーミング処理が行われる。
また、CPU101は、マイクロホンアレイで観測された音響信号x1(n)乃至xM(n)に対して短時間フーリエ変換を行う処理、及び、出力信号Y(ω,k)を、重畳加算法等によって、時間波形に変換する処理も併せて実行することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、信号処理装置1として、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。
例えば、信号処理装置1が行う処理は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出するステアリングベクトル生成部と、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部と
を備える信号処理装置。
(2)
前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルと前記雑音のステアリングベクトルの両方を算出し、
前記射影行列生成部は、前記目的音のステアリングベクトルのうち、前記雑音のステアリングベクトルが張る部分空間に直交する成分を求め、その成分に直交する部分空間に射影する前記射影行列を算出する
前記(1)に記載の信号処理装置。
(3)
前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルと前記雑音のステアリングベクトルの両方を算出し、
前記射影行列生成部は、前記雑音のステアリングベクトルが張る部分空間を求め、その部分空間に射影する前記射影行列を算出する
前記(1)または(2)に記載の信号処理装置。
(4)
前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルを算出し、
前記射影行列生成部は、前記目的音のステアリングベクトルの方向に射影する前記射影行列を算出する
前記(1)乃至(3)のいずれかに記載の信号処理装置。
(5)
前記フィルタ生成部により算出された前記フィルタを用いて、前記観測信号に対して前記最小分散ビームフォーマのビームフォーミング処理を実行するビームフォーミング処理部をさらに備える
前記(1)乃至(4)のいずれかに記載の信号処理装置。
(6)
前記射影行列生成部は、前記共分散行列の持つ空間的性質の情報のうち、前記雑音に関する情報を保存しつつ、前記目的音に関する情報のみを排除する前記射影行列を算出する
前記(1)乃至(5)のいずれかに記載の信号処理装置。
(7)
信号処理装置が、
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出し、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出し、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出し、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出する
ステップを含む信号処理方法。
(8)
コンピュータを、
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出するステアリングベクトル生成部と、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部
として機能させるためのプログラム。
(1)
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出するステアリングベクトル生成部と、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部と
を備える信号処理装置。
(2)
前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルと前記雑音のステアリングベクトルの両方を算出し、
前記射影行列生成部は、前記目的音のステアリングベクトルのうち、前記雑音のステアリングベクトルが張る部分空間に直交する成分を求め、その成分に直交する部分空間に射影する前記射影行列を算出する
前記(1)に記載の信号処理装置。
(3)
前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルと前記雑音のステアリングベクトルの両方を算出し、
前記射影行列生成部は、前記雑音のステアリングベクトルが張る部分空間を求め、その部分空間に射影する前記射影行列を算出する
前記(1)または(2)に記載の信号処理装置。
(4)
前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルを算出し、
前記射影行列生成部は、前記目的音のステアリングベクトルの方向に射影する前記射影行列を算出する
前記(1)乃至(3)のいずれかに記載の信号処理装置。
(5)
前記フィルタ生成部により算出された前記フィルタを用いて、前記観測信号に対して前記最小分散ビームフォーマのビームフォーミング処理を実行するビームフォーミング処理部をさらに備える
前記(1)乃至(4)のいずれかに記載の信号処理装置。
(6)
前記射影行列生成部は、前記共分散行列の持つ空間的性質の情報のうち、前記雑音に関する情報を保存しつつ、前記目的音に関する情報のみを排除する前記射影行列を算出する
前記(1)乃至(5)のいずれかに記載の信号処理装置。
(7)
信号処理装置が、
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出し、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出し、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出し、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出する
ステップを含む信号処理方法。
(8)
コンピュータを、
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出するステアリングベクトル生成部と、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部
として機能させるためのプログラム。
1 信号処理装置, 11 共分散行列演算部, 12 ステアリングベクトル生成部, 13 射影行列生成部, 14 フィルタ生成部, 15 ビームフォーミング処理部, 101 CPU, 102 ROM, 103 RAM, 106 入力部, 107 出力部, 108 記憶部, 109 通信部, 110 ドライブ
Claims (8)
- 目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出するステアリングベクトル生成部と、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部と
を備える信号処理装置。 - 前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルと前記雑音のステアリングベクトルの両方を算出し、
前記射影行列生成部は、前記目的音のステアリングベクトルのうち、前記雑音のステアリングベクトルが張る部分空間に直交する成分を求め、その成分に直交する部分空間に射影する前記射影行列を算出する
請求項1に記載の信号処理装置。 - 前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルと前記雑音のステアリングベクトルの両方を算出し、
前記射影行列生成部は、前記雑音のステアリングベクトルが張る部分空間を求め、その部分空間に射影する前記射影行列を算出する
請求項1に記載の信号処理装置。 - 前記ステアリングベクトル生成部は、前記目的音のステアリングベクトルを算出し、
前記射影行列生成部は、前記目的音のステアリングベクトルの方向に射影する前記射影行列を算出する
請求項1に記載の信号処理装置。 - 前記フィルタ生成部により算出された前記フィルタを用いて、前記観測信号に対して前記最小分散ビームフォーマのビームフォーミング処理を実行するビームフォーミング処理部をさらに備える
請求項1に記載の信号処理装置。 - 前記射影行列生成部は、前記共分散行列の持つ空間的性質の情報のうち、前記雑音に関する情報を保存しつつ、前記目的音に関する情報のみを排除する前記射影行列を算出する
請求項1に記載の信号処理装置。 - 信号処理装置が、
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出し、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出し、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出し、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出する
ステップを含む信号処理方法。 - コンピュータを、
目的音が含まれる時間区間の観測信号から、最小分散ビームフォーマで用いる共分散行列を算出する共分散行列演算部と、
前記目的音のステアリングベクトルまたは雑音のステアリングベクトルの少なくとも一方を算出するステアリングベクトル生成部と、
算出された前記目的音のステアリングベクトルまたは前記雑音のステアリングベクトルの少なくとも一方を用いて、前記共分散行列を加工する射影行列を算出する射影行列生成部と、
前記射影行列により前記共分散行列を加工して得られた加工共分散行列を用いて、前記最小分散ビームフォーマのフィルタを算出するフィルタ生成部
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017512264A JP6724905B2 (ja) | 2015-04-16 | 2016-04-01 | 信号処理装置、信号処理方法、およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-083943 | 2015-04-16 | ||
JP2015083943 | 2015-04-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016167141A1 true WO2016167141A1 (ja) | 2016-10-20 |
Family
ID=57126255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/060898 WO2016167141A1 (ja) | 2015-04-16 | 2016-04-01 | 信号処理装置、信号処理方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6724905B2 (ja) |
WO (1) | WO2016167141A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108254715A (zh) * | 2018-03-26 | 2018-07-06 | 中兴通讯股份有限公司 | 一种波达方向估计方法、设备及计算机存储介质 |
JPWO2019049276A1 (ja) * | 2017-09-07 | 2019-12-26 | 三菱電機株式会社 | 雑音除去装置および雑音除去方法 |
KR20200059574A (ko) * | 2018-11-21 | 2020-05-29 | 에스티엑스엔진 주식회사 | 부대역 조향 공분산 행렬을 이용한 적응형 빔형성기의 신호처리방법 |
WO2020184211A1 (ja) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
WO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
WO2022105571A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 语音增强方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2011107602A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
-
2016
- 2016-04-01 JP JP2017512264A patent/JP6724905B2/ja active Active
- 2016-04-01 WO PCT/JP2016/060898 patent/WO2016167141A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2011107602A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2019049276A1 (ja) * | 2017-09-07 | 2019-12-26 | 三菱電機株式会社 | 雑音除去装置および雑音除去方法 |
CN108254715A (zh) * | 2018-03-26 | 2018-07-06 | 中兴通讯股份有限公司 | 一种波达方向估计方法、设备及计算机存储介质 |
CN108254715B (zh) * | 2018-03-26 | 2024-05-24 | 中兴通讯股份有限公司 | 一种波达方向估计方法、设备及计算机存储介质 |
KR20200059574A (ko) * | 2018-11-21 | 2020-05-29 | 에스티엑스엔진 주식회사 | 부대역 조향 공분산 행렬을 이용한 적응형 빔형성기의 신호처리방법 |
KR102159631B1 (ko) * | 2018-11-21 | 2020-09-24 | 에스티엑스엔진 주식회사 | 부대역 조향 공분산 행렬을 이용한 적응형 빔형성기의 신호처리방법 |
WO2020184211A1 (ja) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
JP2020148899A (ja) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
JP7222277B2 (ja) | 2019-03-13 | 2023-02-15 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
WO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
JPWO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | ||
JP7004875B2 (ja) | 2019-12-20 | 2022-01-21 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
WO2022105571A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 语音增强方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6724905B2 (ja) | 2020-07-15 |
JPWO2016167141A1 (ja) | 2018-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016167141A1 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
EP2936830B1 (en) | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates | |
US9984702B2 (en) | Extraction of reverberant sound using microphone arrays | |
US9681220B2 (en) | Method for spatial filtering of at least one sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence | |
JP6363213B2 (ja) | いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム | |
JP2017503388A5 (ja) | ||
US9190047B2 (en) | Acoustic signal processing device and method | |
Niwa et al. | Post-filter design for speech enhancement in various noisy environments | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
Thiergart et al. | Extracting reverberant sound using a linearly constrained minimum variance spatial filter | |
Chakrabarty et al. | On the numerical instability of an LCMV beamformer for a uniform linear array | |
JP6567216B2 (ja) | 信号処理装置 | |
JP2010245984A (ja) | マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム | |
US20160275954A1 (en) | Online target-speech extraction method for robust automatic speech recognition | |
JP2017151216A (ja) | 音源方向推定装置、音源方向推定方法、およびプログラム | |
JP5376635B2 (ja) | 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム | |
Hioka et al. | Under-determined source separation based on power spectral density estimated using cylindrical mode beamforming | |
JP2010286685A (ja) | 信号処理装置 | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
Chetupalli et al. | Joint spatial filter and time-varying mclp for dereverberation and interference suppression of a dynamic/static speech source | |
Ali et al. | MWF-based speech dereverberation with a local microphone array and an external microphone | |
Biderman et al. | Efficient relative transfer function estimation framework in the spherical harmonics domain | |
Li et al. | An efficient and robust speech dereverberation method using spherical microphone array | |
Delikaris‐Manias et al. | Cross‐Spectrum‐Based Post‐Filter Utilizing Noisy and Robust Beamformers | |
Hasan et al. | Adaptive beamforming with a Microphone Array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16779932 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017512264 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16779932 Country of ref document: EP Kind code of ref document: A1 |