WO2013021960A1 - 信号処理装置、信号処理方法、および信号処理プログラム - Google Patents
信号処理装置、信号処理方法、および信号処理プログラム Download PDFInfo
- Publication number
- WO2013021960A1 WO2013021960A1 PCT/JP2012/069935 JP2012069935W WO2013021960A1 WO 2013021960 A1 WO2013021960 A1 WO 2013021960A1 JP 2012069935 W JP2012069935 W JP 2012069935W WO 2013021960 A1 WO2013021960 A1 WO 2013021960A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- component
- amplitude
- signal
- unit
- frequency domain
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000006243 chemical reaction Methods 0.000 claims abstract description 53
- 230000007613 environmental effect Effects 0.000 claims abstract description 49
- 238000006467 substitution reaction Methods 0.000 claims abstract 3
- 230000008859 change Effects 0.000 claims description 11
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 26
- 238000001228 spectrum Methods 0.000 description 113
- 230000001629 suppression Effects 0.000 description 49
- 238000000034 method Methods 0.000 description 37
- 230000014509 gene expression Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 22
- 230000009466 transformation Effects 0.000 description 17
- 230000015556 catabolic process Effects 0.000 description 15
- 238000006731 degradation reaction Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 230000006866 deterioration Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000001934 delay Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Definitions
- the present invention relates to a signal processing technique for controlling a phase component of a signal.
- Patent Document 1 and Non-Patent Document 1 disclose a noise suppression technique that focuses on a phase spectrum.
- the techniques described in Patent Document 1 and Non-Patent Document 1 suppress the amplitude spectrum related to noise and simultaneously shift the phase spectrum by a random value up to ⁇ / 4.
- the techniques described in Patent Document 1 and Non-Patent Document 1 realize noise suppression that cannot be suppressed only by attenuation of the noise spectrum by randomly shifting the phase spectrum.
- An object of this invention is to provide the signal processing technique which solves the above-mentioned subject.
- the signal processing device is based on a conversion unit that converts an input signal into a frequency domain signal including a phase component and an amplitude component or a power component, and the amplitude component or power component of the frequency domain signal.
- Estimation means for estimating the amplitude component or power component of the environmental sound
- detection means for detecting a frequency where the target sound does not exist based on the amplitude component or power component of the frequency domain signal, and the presence of the target sound.
- Replacement means for replacing the amplitude component or power component of the frequency domain signal with the amplitude component or power component of the environmental sound at a frequency not to be transmitted.
- a signal processing method converts an input signal into a frequency domain signal including a phase component and an amplitude component or a power component, and based on the amplitude component or the power component of the frequency domain signal, an environment Estimating the amplitude component or power component of the sound, detecting a frequency where the target sound does not exist based on the amplitude component or power component of the frequency domain signal, and at a frequency where the target sound does not exist, The amplitude component or power component is replaced with the amplitude component or power component of the environmental sound.
- a signal processing program stored in a computer-readable recording medium converts an input signal into a frequency domain signal including a phase component and an amplitude component or a power component, and the frequency domain signal Based on the amplitude component or the power component, the amplitude component or the power component of the environmental sound is estimated, on the basis of the amplitude component or the power component of the frequency domain signal, a frequency at which the target sound does not exist is detected, and the target sound In a frequency where no signal exists, the computer is caused to perform a process of replacing the amplitude component or power component of the frequency domain signal with the amplitude component or power component of the environmental sound.
- FIG. 1 is a block diagram showing a schematic configuration of a signal processing apparatus as a first embodiment of the present invention. It is a block diagram which shows schematic structure of the noise suppression apparatus as 2nd Embodiment of this invention. It is a block diagram which shows the structure of the conversion part contained in 2nd Embodiment of this invention. It is a block diagram which shows the structure of the inverse transformation part contained in 2nd Embodiment of this invention. It is a block diagram which shows the structure of the noise suppression part which concerns on 2nd Embodiment of this invention. It is a figure explaining the detection method of the non-target sound band in the non-target sound detection part which concerns on 2nd Embodiment of this invention.
- FIG. 1 is a diagram showing a schematic configuration of a signal processing apparatus 100 according to the first embodiment of the present invention.
- the signal processing apparatus 100 includes a conversion unit 101, a detection unit 102, an estimation unit 103, and a replacement unit 104.
- the conversion unit 101 converts the input signal into a frequency domain signal including a phase component and an amplitude component or a power component.
- the estimation unit 102 estimates the amplitude component or power component of the environmental sound based on the amplitude component or power component of the frequency domain signal. Furthermore, the detection unit 103 detects a frequency at which the target sound does not exist based on the amplitude component or power component of the frequency domain signal. On the other hand, the replacement unit 104 replaces the amplitude component or power component of the frequency domain signal with the amplitude component or power component of the environmental sound at a frequency where the target sound does not exist.
- the signal processing apparatus 100 according to the first embodiment can effectively emphasize the target sound and the environmental sound. (Second Embodiment) "overall structure" A noise suppression apparatus 200 as a second embodiment of the present invention will be described with reference to FIGS. FIG.
- FIG. 2 is a block diagram showing the overall configuration of the noise suppression apparatus 200.
- the noise suppression apparatus 200 of this embodiment functions also as a part of apparatuses, such as a digital camera, a notebook personal computer, a mobile phone, etc., for example, this invention is not limited to this.
- the noise suppression apparatus 200 can be applied to any information processing apparatus that is required to remove noise from an input signal.
- a degradation signal (a signal in which a desired signal and noise are mixed) is supplied to the input terminal 206 as a sample value series.
- the conversion unit 201 performs transformation such as Fourier transformation on the supplied degradation signal and divides the degradation signal into a plurality of frequency components.
- the conversion unit 201 processes a plurality of frequency components independently at each frequency.
- the conversion unit 201 supplies an amplitude spectrum (amplitude component) 230 among the plurality of frequency components to the noise suppression unit 205.
- the conversion unit 201 supplies the phase spectrum (phase component) 220 among the plurality of frequency components to the phase control unit (first control unit) 202.
- the conversion unit 201 supplies the degraded signal amplitude spectrum 230 to the noise suppression unit 205, but the present invention is not limited to this.
- the conversion unit 201 may supply a power spectrum corresponding to the square of the degraded signal amplitude spectrum 230 to the noise suppression unit 205.
- the noise suppression unit 205 estimates noise using the degraded signal amplitude spectrum 230 supplied from the conversion unit 201, and generates an estimated noise spectrum. Also, the noise suppression unit 205 suppresses noise using the deteriorated signal amplitude spectrum 230 supplied from the conversion unit 201 and the generated estimated noise spectrum. The noise suppression unit 205 transmits the enhanced signal amplitude spectrum as a noise suppression result to the amplitude control unit (second control unit) 203.
- the phase control unit 202 rotates (shifts) the deteriorated signal phase spectrum 220 supplied from the conversion unit 201, and supplies it to the inverse conversion unit (synthesis unit) 204 as the enhanced signal phase spectrum 240.
- phase control unit 202 transmits the phase rotation amount (shift amount) to the amplitude control unit 203.
- the amplitude control unit 203 receives the amount of phase rotation (shift amount) from the phase control unit 202 and calculates an amplitude correction amount.
- the amplitude control unit 203 uses the amplitude correction amount to correct the emphasized signal amplitude spectrum at each frequency, and generates a corrected amplitude spectrum 250.
- the amplitude control unit 203 supplies the corrected amplitude spectrum 250 to the inverse conversion unit 204.
- FIG. 3 is a block diagram illustrating a configuration of the conversion unit 201.
- the conversion unit 201 includes a frame division unit 301, a windowing unit 302, and a Fourier transform unit 303.
- the deteriorated signal samples are supplied to the frame dividing unit 301 and divided into frames for every K / 2 samples.
- K is an even number.
- the deteriorated signal samples divided into frames are supplied to the windowing processing unit 302, and are multiplied by w (t) which is a window function.
- the windowing processing unit 302 may use a symmetric window function for a real signal.
- the windowing processing unit 302 may use, for example, a Hanning window represented by the following equation (3) as w (t).
- the windowed output is supplied to the Fourier transform unit 303 and converted into a degraded signal spectrum Yn (k).
- the deteriorated signal spectrum Yn (k) is separated into phase and amplitude, the deteriorated signal phase spectrum 220 (arg Yn (k)) is sent to the phase control unit 202, and the deteriorated signal amplitude spectrum 230 (
- a power spectrum may be used instead of the amplitude spectrum.
- the inverse transform unit 204 includes an inverse Fourier transform unit 401, a windowing processing unit 402, and a frame synthesis unit 403.
- the inverse Fourier transform unit 401 multiplies the corrected amplitude spectrum 250 supplied from the amplitude control unit 203 by the enhanced signal phase spectrum 240 (arg Yn (k)) supplied from the phase control unit 202 to obtain an enhanced signal (hereinafter referred to as an enhanced signal). (Left side of equation (4)).
- the inverse Fourier transform unit 401 performs inverse Fourier transform on the obtained enhancement signal.
- the multiplication with the window function w (t) is performed.
- the left side of the following expression becomes the output of the windowing processing unit 402 and is transmitted to the frame synthesis unit 403.
- the obtained output signal is transmitted from the frame synthesis unit 403 to the output terminal 207. 3 and 4, the transformation in the transformation unit 201 and the inverse transformation unit 204 has been described as a Fourier transformation.
- the transformation unit 201 and the inverse transformation unit 204 are replaced with a Hadamard transformation, a Haar transformation, and a wavelet transformation instead of the Fourier transformation.
- Other conversions may be used.
- the conversion unit 201 and the inverse conversion unit 204 use Haar transform, multiplication is not necessary, and the area of the LSI can be reduced.
- the transform unit 201 and the inverse transform unit 204 use wavelet transform, the time resolution can be changed depending on the frequency, so that an improvement in noise suppression effect can be expected.
- the noise suppression unit 205 may perform actual suppression after integrating a plurality of frequency components obtained by the conversion unit 201.
- FIG. 5 is a block diagram showing an internal configuration of the noise suppression unit 205 according to the present embodiment.
- the noise suppression unit 205 includes a non-target sound detection unit 552, an environmental sound estimation unit 553, and an amplitude replacement unit 551.
- the non-target sound detection unit 552 detects the non-target sound band 554 where the target sound does not exist, using the deteriorated signal amplitude spectrum 230, and supplies the non-target sound band 554 to the amplitude replacement unit 551.
- the environmental sound estimation unit 553 generates an estimated environmental sound amplitude spectrum using the degraded signal amplitude spectrum 230 and supplies the estimated environmental sound amplitude spectrum to the amplitude replacement unit 551.
- the amplitude replacement unit 551 replaces the deteriorated signal amplitude spectrum 230 with the estimated environmental sound amplitude spectrum supplied from the environmental sound estimation unit 553 in the non-target sound band 554 supplied from the non-target sound detection unit 552, and performs amplitude control. To the unit 203.
- FIG. 6 shows a degraded signal amplitude spectrum 230 in a certain frame.
- a method of detecting the non-target sound band 554 in the non-target sound detection unit 552 will be described with reference to FIG.
- the non-target sound detection unit 552 detects the peak position of the deterioration signal amplitude spectrum 230.
- the peak position is detected as a position where the amplitude value of the degraded signal amplitude spectrum 230 at a certain frequency is larger than the amplitude value of the adjacent frequency.
- the peak position corresponds to the apex of the degradation signal amplitude spectrum 230.
- the peak position is indicated by a solid line downward arrow.
- the non-target sound detection unit 552 sets an amplitude value search range.
- the non-target sound detection unit 552 sets a certain left-right width centered on the peak position in the amplitude value search range.
- the width of the search range is a parameter that depends on the sampling frequency and the like. The left and right widths may be unequal.
- the amplitude value search range is indicated by a horizontal solid line.
- the non-target sound detection unit 552 sets a target sound determination threshold value.
- the target sound determination threshold is a value obtained by multiplying the amplitude value at the peak position by a coefficient.
- the coefficient is a value between 0 and 1, and its magnitude is a parameter that adjusts the ease of detection of the target sound.
- the non-target sound detection unit 552 may determine the target sound determination threshold value by subtraction instead of multiplication.
- the value to be subtracted is a value obtained by multiplying the peak position amplitude value by a coefficient or a constant.
- the target sound determination threshold is indicated by a horizontal broken line.
- the non-target sound detection unit 552 detects the target sound band based on the above set values.
- the target sound band is a continuous band in which the degradation signal amplitude spectrum 230 includes the peak position and is larger than the target sound determination threshold within the amplitude value search range. However, the target sound band is effective only when the degradation signal amplitude spectrum 230 falls below the target sound determination threshold value on both sides of the peak position within the amplitude value search range.
- the target sound band is hatched.
- the degraded signal amplitude spectrum 230 is not lower than the target sound determination threshold on both sides of the peak position within the amplitude value search range. Therefore, the target sound band is not detected at the peak positions (2) to (4).
- the degraded signal amplitude spectrum 230 is lower than the target sound determination threshold on both sides of the peak position within the amplitude value search range. Therefore, in the amplitude value search range, a continuous band having an amplitude value larger than the target sound determination threshold value including the peak position is determined as the target sound band.
- a band other than the target sound band is detected as the non-target sound band 554.
- the environmental sound estimation unit 553 generates an estimated environmental sound amplitude spectrum using the degraded signal amplitude spectrum 230 and supplies the estimated environmental sound amplitude spectrum to the amplitude replacement unit 551.
- the environmental sound estimation unit 553 For estimation of environmental sound, M.M. Kato, A .; Sugiyama, and M.A. Serizawa, "Noise suppression with high speed quality based on weighted noise estimation and MMSE STSA," IEICE Trans. Fundamentals (Japan Edition), vol. J87-A, no. 7, pp. 851-860, July 2004. (Reference 1) and R.A. Martin, “Spectral subtraction based on minimum statistics,” EUSPICO-94, pp. 1182-1185, Sept.
- the estimated ambient sound amplitude spectrum is an average value of the deteriorated signal amplitude spectrum 230 of a frame in which the target sound is not generated.
- the section in which the target sound is generated can be determined by the power of the enhancement signal.
- the enhancement signal is a target sound other than the environmental sound. Further, the levels of the target sound and the environmental sound do not change greatly between adjacent frames. For these reasons, the enhancement signal level in the past of one frame is used as an index for determining the environmental sound section.
- the current frame is determined as the environmental sound section.
- the environmental sound amplitude spectrum is estimated by averaging the deteriorated signal amplitude spectrum 230 of the frame determined as the environmental sound section.
- the estimated ambient sound amplitude spectrum is an average value at the initial stage of estimation when the degradation signal amplitude spectrum 230 starts to be supplied. In this case, it is necessary to satisfy the condition that the target sound is not included immediately after the estimation is started.
- the degradation signal amplitude spectrum 230 at the initial estimation stage is set as the estimated environmental sound amplitude spectrum.
- the minimum value of the degradation signal amplitude spectrum 230 for a certain period of time is statistically maintained, and the ambient sound amplitude spectrum is estimated from the minimum value. Since the minimum value of the degradation signal amplitude spectrum 230 is similar to the spectrum shape of the environmental sound amplitude spectrum, it can be used as an estimated value of the environmental sound amplitude spectrum shape. However, the minimum value is lower than the original environmental sound level. Therefore, a value obtained by appropriately amplifying the minimum value is used as the estimated environmental sound amplitude spectrum.
- the environmental sound estimation unit 553 may estimate the environmental sound using only the non-target sound band 554 obtained from the non-target sound detection unit 552. If estimation is performed using only the non-target sound band, the influence of the target sound is reduced, and the estimation accuracy of the environmental sound is improved.
- ⁇ Configuration of Amplitude Replacement Unit 551 >> The amplitude replacement unit 551 replaces the deteriorated signal amplitude spectrum 230 with the estimated environmental sound amplitude spectrum supplied from the environmental sound estimation unit 553 in the non-target sound band 554 supplied from the non-target sound detection unit 552, and performs amplitude control. To the unit 203. The amplitude replacement unit 551 may realize replacement with the estimated ambient sound amplitude spectrum using a suppression coefficient.
- FIG. 7 is a block diagram showing the configuration of the phase control unit 202 and the amplitude control unit 203.
- the phase control unit 202 includes a phase rotation unit 701 and a rotation amount generation unit 702.
- the amplitude control unit 203 includes a correction amount calculation unit 703 and an amplitude correction unit 704.
- the rotation amount generation unit 702 generates a rotation amount of the deterioration signal phase spectrum 220 and supplies the rotation amount to the phase rotation unit 701 and the correction amount calculation unit 703.
- the phase rotation unit 701 is supplied with the deterioration signal phase spectrum 220 from the conversion unit 201 and is supplied with the rotation amount from the rotation amount generation unit 702.
- the phase rotation unit 701 rotates (shifts) the deteriorated signal phase spectrum 220 by the supplied rotation amount, and supplies it to the inverse conversion unit 204 as the enhanced signal phase spectrum 240.
- the correction amount calculation unit 703 determines an amplitude correction coefficient based on the rotation amount supplied from the rotation amount generation unit 702 and supplies the amplitude correction coefficient to the amplitude correction unit 704.
- the rotation amount generation unit 702 generates a rotation amount using, for example, a random number.
- the phase rotation unit 701 rotates the degradation signal phase spectrum 220 at each frequency using the rotation amount generated by the rotation amount generation unit 702 using random numbers. Due to the rotation performed by the phase rotation unit 701, the shape of the degradation signal phase spectrum 220 changes. This shape change can weaken the characteristics of noise.
- the random number includes a uniform random number having a uniform occurrence probability, and a normal random number having a normal distribution of occurrence probabilities.
- Uniform random numbers are generated by the linear congruential method.
- the explanation is continued by taking a uniform random number in the linear congruential method as an example.
- Uniform random numbers generated by the linear congruential method are uniformly distributed in the range of 0 to (2 ⁇ M) -1.
- M is an arbitrary integer
- ⁇ represents a power.
- the phase rotation amount ⁇ needs to be distributed in the range of 0 to 2 ⁇ . Therefore, the generated uniform random numbers are converted so as to be distributed in the range of 0 to 2 ⁇ .
- the conversion is performed by the following equation (8).
- R is a uniform random number
- Rmax the maximum value that the uniform random number can generate.
- Rmax (2 ⁇ M) ⁇ 1.
- the value of R may be used as the rotation amount as it is. Since it is the amount of rotation, 2 ⁇ represents exactly one rotation.
- the rotation amount of 2 ⁇ + ⁇ is the same as that when the rotation amount is ⁇ .
- the rotation amount ⁇ may be obtained by Expression (8).
- the phase rotation unit 701 receives the rotation amount from the rotation amount generation unit 702 and rotates the deterioration signal phase spectrum 220. If the degradation signal phase spectrum 220 is expressed by an angle, the phase rotation unit 701 rotates the angle by adding the value of the rotation amount ⁇ to the angle.
- the phase rotation unit 701 obtains a normal vector of the rotation amount ⁇ and rotates the deteriorated signal phase spectrum 220 by multiplying it.
- a normal vector of the rotation amount ⁇ is obtained by Expression (9).
- ⁇ is a rotation vector.
- j represents sqrt (-1). Note that sqrt represents the square root.
- a correction coefficient calculation method by the correction amount calculation unit 703 will be described. First, it will be described with reference to FIGS. 8 and 9 that the output level is lowered due to the rotation of the phase. 8 and 9 show signals when the deteriorated signal is processed by the block diagram shown in FIG. The difference between FIG. 8 and FIG. 9 is the presence or absence of phase rotation.
- FIG. 8 shows a signal when the phase rotation is not performed
- FIG. 9 shows a signal when the phase rotation is performed from the frame 3.
- a signal when the phase is not rotated will be described with reference to FIG. Depicted at the top of FIG. 8 is a degraded signal.
- the deteriorated signal is divided into frames by the frame dividing unit 301.
- the second signal from the top divided by the dotted line is a signal after frame division.
- FIG. 8 shows signals for four consecutive frames.
- the overlap rate of frames is 50%.
- the windowing processing unit 302 performs windowing on the signal divided into frames.
- the third signal from the top divided by the dotted line is the signal after the windowing process. In FIG. 8, weighting by a rectangular window is performed in order to clearly show the influence of the phase rotation.
- the signal is converted into a frequency domain signal by the Fourier transform unit 303, but the signal in the frequency domain is omitted in FIG.
- the signal converted into the time domain by the inverse Fourier transform unit 401 of the inverse transform unit 204 is illustrated.
- the fourth signal from the top divided by the dotted line is the signal after phase rotation.
- the enhancement signal output from the inverse Fourier transform unit 401 of the inverse transform unit 204 is subjected to windowing processing again.
- FIG. 8 shows a case where weighting by a rectangular window is performed.
- the signal subjected to the windowing process is synthesized by the frame synthesis unit 403.
- FIG. 9 shows a signal when the phase rotation is performed from the frame 3. Depicted at the top is the same degraded signal as in FIG. The signals after the frame division and the windowing process are the same as in FIG. FIG. 9 illustrates a case where a constant phase rotation is performed from the frame 3. Pay attention to the right-triangulated section shown below the dotted line in the phase rotation process. Due to the phase rotation process, the signals of frames 3 and 4 are shifted in the time direction.
- the signal subjected to phase rotation is again subjected to windowing processing, and frame synthesis is performed.
- the signals of the frame 2 and the frame 3 are different in the section ii where the frames 2 and 3 overlap.
- the output signal level after frame synthesis decreases in the interval ii. That is, when phase rotation is performed, the output signal level decreases in the section ii in FIG.
- This decrease in the output signal level due to the phase rotation can be explained by frequency domain vector synthesis by replacing the time domain addition with the frequency domain addition.
- FIG. 10 shows two consecutive degraded signals after frame division and windowing as x1 [n] and x2 [m].
- the overlap rate is 50%.
- n represents a discrete time of x1.
- m represents a discrete time of x2.
- the overlap rate is 50%
- the following equation (10) is established.
- the relationship between x1 and x2 is expressed by the following equation (11).
- the frequency domain signal X [k] is expressed as the following Expression (12) by Fourier transform of the time domain signal x [n].
- k represents a discrete frequency
- L is a frame length.
- the frequency domain signal X [k] is returned to the time domain signal x [n] by inverse transformation, it is expressed as the following Expression (13).
- the time domain signals x1 [n] and x2 [m] are converted into the frequency domain signals X1 [k] and X2 [k], they are expressed as the following equations (14) and (15). Is done.
- the frequency domain signals X1 [k] and X2 [k] are returned to the time domain signals x1 [n] and x2 [m] by inverse transformation, respectively, the following formulas (16) and (17) are obtained from the formula (13). ).
- the inverse transform unit transforms the frequency domain signal into a time domain signal by inverse Fourier transform. Thereafter, the frame synthesis unit overlaps and adds the emphasized speech of the previous frame and the current frame.
- m L / 2 to L-1.
- Expression (16) and Expression (17) are substituted for the time domain addition, the following Expression (18) is obtained.
- the expression (19) is expanded, it is expressed as the following expression (20).
- a summation operation included in each term of Expression (20) is considered.
- An arbitrary integer g is introduced, and the following formula (21) is established.
- the correction amount calculation unit 703 determines the amplitude correction amount of the emphasized signal amplitude spectrum so as to correct the decrease amount (change amount) of the output signal level.
- the phase rotation amount is determined by a uniform random number
- a method of calculating the correction amount will be specifically described.
- each frequency component is normalized to a unit vector by paying attention to a variation (change amount) due to phase rotation.
- phase rotation is not performed.
- the combined vector in the case where the phases are the same between consecutive frames is a vector S shown in FIG. 13, and the magnitude
- Expression (39) When the ratio of Expression (37) and Expression (38) is taken, the following Expression (39) is established. That is, when the phase is rotated with a uniform random number, the power average value of the output signal is reduced by 1 ⁇ 2 compared to the input.
- the amplitude correction unit 704 corrects the amplitude value. Therefore, the correction amount calculation unit 703 sets the correction coefficient to sqrt (2) and transmits it to the amplitude correction unit 704.
- the case of generating the rotation amount with uniform random numbers has been described as an example, but the correction coefficient is uniquely determined if the variance and the average value are determined even with normal random numbers or the like. Derivation of the correction coefficient when using normal random numbers will be described below.
- the probability of occurrence of ⁇ is determined by a normal distribution. Therefore, in order to obtain an expected power value when phase rotation is performed using normal random numbers, weighting needs to be performed based on the occurrence probability of ⁇ . Specifically, a weight function f ( ⁇ ) based on the occurrence probability of ⁇ is introduced. Cos ( ⁇ ) is weighted by the weight function f ( ⁇ ). Further, the expected power value can be obtained by normalizing with the integral value of the weighting function f ( ⁇ ). The output power expected value E (S ′ ′ ⁇ 2) when the phase rotation is performed with the normal random number is obtained by adding the weighting function f ( ⁇ ) and its integrated value to Expression (35) which is the output power expected value of the uniform random number.
- the correction amount calculation unit 703 transmits the correction coefficient to the amplitude correction unit 704 as a correction coefficient sqrt (1 / 0.805).
- the phase control unit 202 may perform phase rotation for all frequencies or a part of frequencies.
- the amplitude control unit 203 performs amplitude correction only on the frequency on which phase rotation has been performed. Therefore, the correction coefficient for the frequency at which phase rotation is not performed is 1.0. Only the correction coefficient for the frequency at which the phase is rotated is derived.
- ⁇ Description of Amplitude Correction Unit 504 >> The amplitude control unit 203 calculates an amplitude correction coefficient using the phase rotation amount transmitted from the phase control unit 202.
- the amplitude control unit 203 multiplies the calculated amplitude correction coefficient by the enhanced signal amplitude spectrum supplied from the noise suppression unit 205 and supplies the product to the inverse conversion unit 204.
- the noise suppression device 200 can rotate the deteriorated signal phase spectrum 220 and eliminate the output level drop when the enhanced signal phase spectrum 240 is obtained.
- the noise suppression apparatus 200 according to the present embodiment can remove the influence on the output signal level by rotating the phase spectrum by using the amplitude control unit 203. Therefore, the noise suppression device 200 can obtain an enhanced signal that effectively enhances the target sound and the environmental sound.
- FIG. 14 is a block diagram illustrating a configuration of the phase control unit 1402 according to the present embodiment.
- the present embodiment is different from the second embodiment in that a rotation amount generation unit 1421 uses a non-target sound band 554 supplied from a non-target sound detection unit 552. Since other configurations and operations are the same as those in the second embodiment, a detailed description thereof is omitted here.
- the rotation amount generation unit 1421 generates a rotation amount only in the non-target sound band 554 supplied from the non-target sound detection unit 552 and supplies the rotation amount to the phase rotation unit 701 and the amplitude control unit 203.
- the phase rotation unit 701 is supplied with the rotation amount from the rotation amount generation unit 1421.
- the phase rotation unit 701 replaces the deterioration signal phase spectrum 220 supplied from the conversion unit 201 with a rotation amount or a rotation amount by the supplied rotation amount, and supplies it to the inverse conversion unit 204 as an enhanced signal phase spectrum 240. .
- the method for generating the rotation amount only with the non-target sound band 554 has been described above, but the same effect can be obtained by generating the rotation amount with all frequencies and rotating the phase with only the non-target sound band 554. This method is realized by the following processing.
- the non-target sound band 554 detected by the non-target sound detection unit 552 is supplied to the phase rotation unit 701 and the amplitude control unit 203.
- the phase rotation unit 701 rotates the deteriorated signal phase spectrum 220 only in the non-target sound band 554 to obtain the enhanced signal phase spectrum 240.
- the amplitude control unit 203 performs amplitude control only in the non-target sound band 554.
- ⁇ Configuration of Rotation Amount Generation Unit 1421 >> The rotation amount generation unit 1421 generates a rotation amount of the deteriorated signal phase spectrum 220 in the non-target sound band 554 supplied from the non-target sound detection unit 552 and supplies the rotation amount to the phase rotation unit 701 and the amplitude control unit 203.
- the rotation amount generation unit 1421 uses the rotation amount generation method in the second embodiment for generating the rotation amount.
- FIG. 15 is a diagram illustrating a configuration of a noise suppression device 1500 according to the present embodiment.
- a noise suppression apparatus 1500 according to the present embodiment includes an amplitude component delay unit 1511, a phase component delay unit 1512, and an inverse conversion unit 1513 in addition to the configuration of FIG. 2 of the second embodiment. There is also a difference in the internal configuration of the amplitude control unit 1503.
- the deterioration signal supplied to the input terminal 206 is supplied to the conversion unit 201 and the amplitude control unit 1503.
- the conversion unit 201 supplies the degraded signal amplitude spectrum 230 to the amplitude component delay unit 1511 and the inverse conversion unit 1513. Further, the conversion unit 201 supplies the degraded signal phase spectrum 220 to the phase control unit 202.
- the phase control unit 202 rotates the deteriorated signal phase spectrum 220 supplied from the conversion unit 201 and supplies it to the inverse conversion unit 1513 and the phase component delay unit 1512 as an enhanced signal phase spectrum. Further, the phase control unit 202 transmits the presence / absence of phase rotation at each frequency to the amplitude control unit 1503.
- the inverse conversion unit 1513 uses the deteriorated signal amplitude spectrum 230 supplied from the conversion unit 201 and the enhanced signal phase spectrum supplied from the phase control unit 202, to the amplitude control unit 1503 for a signal whose level is reduced due to phase rotation. introduce.
- the amplitude component delay unit 1511 delays the degraded signal amplitude spectrum 230 from the conversion unit 201 and supplies the delayed signal amplitude spectrum 230 to the noise suppression unit 205.
- the phase component delay unit 1512 delays the emphasized signal phase spectrum from the phase control unit 202 and supplies the delayed signal to the inverse conversion unit 204.
- the noise suppression unit 205 estimates noise using the degraded signal amplitude spectrum supplied from the amplitude component delay unit 1511 and generates an estimated noise spectrum.
- the inverse conversion unit 204 synthesizes the enhancement signal phase spectrum 240 supplied from the phase control unit 202 via the phase component delay unit 1512 and the corrected amplitude spectrum 250 supplied from the amplitude control unit 1503 to perform inverse conversion. And supplied to the output terminal 207 as an emphasis signal.
- the deteriorated signal phase spectrum 220 is controlled by the phase control unit 202 and converted into a time domain signal by the inverse conversion unit 1513.
- the amplitude control unit 1503 uses the signal and the deterioration signal 210 to obtain a level fluctuation amount (change amount) due to phase rotation. This variation is a variation only in the rotation processing by the phase rotation unit 701. Therefore, the amplitude control unit 1503 can accurately capture level fluctuations due to phase rotation.
- the amplitude control unit 1503 performs amplitude correction using this level ratio, but the obtained level ratio is one frame before. Therefore, an amplitude component delay unit 1511 and a phase component delay unit 1512 are introduced, and the amplitude control unit 1503 performs amplitude correction on the frequency component one frame before.
- the input / output ratio calculation unit 1631 calculates the level ratio from the deterioration signal supplied from the input terminal 206 and the signal supplied from the inverse conversion unit 1513 and includes the level decrease due to phase rotation, and the correction amount calculation unit 1233. To supply.
- the correction amount calculation unit 1233 receives information on the presence or absence of phase rotation at each frequency from the phase control unit 202, and calculates an amplitude correction amount.
- the amplitude correction unit 704 corrects the emphasized signal amplitude spectrum at each frequency based on the amplitude correction amount, and supplies the corrected signal amplitude spectrum to the inverse conversion unit 204.
- the noise suppression apparatus 1500 can avoid a delay in the input / output ratio, and can realize more accurate output level correction.
- the noise suppression device 1700 according to the present embodiment includes a frame overlap control unit 1708 in addition to the configuration of the second embodiment.
- the frame overlap control unit 1708 controls the overlap rate when frames are divided and combined in the conversion unit 201 and the inverse conversion unit 204.
- the frame overlap control unit 1708 supplies the overlap rate to the amplitude control unit 203.
- the level drop due to phase rotation is caused by overlap.
- This level reduction amount varies depending on the overlap rate, and the decrease amount increases as the overlap rate increases. Therefore, when the overlap rate changes, it is necessary to control the amplitude correction amount.
- the correction amount is obtained based on the amplitude correction amount G when the overlap ratio is 50%.
- the amplitude correction amount is G when the overlap ratio is 50%. Therefore, the amplitude correction amount is expressed by the following equation (46) using the ratio of the frame length L and the overlap length Q.
- the noise suppression device 1700 can freely set the frame overlap rate. (Other embodiments) In the first to fifth embodiments described above, noise suppression devices having different characteristics have been described. However, noise suppression devices that combine these features in any way are also included in the scope of the present invention.
- FIG. 18 is a configuration diagram of a computer 1800 that executes a signal processing program when the first embodiment is configured by a signal processing program.
- the computer 1800 includes an input unit 1801, a CPU 1802, an output unit 1803, and a memory 1804.
- the CPU 1802 controls the operation of the computer 1800 by reading a signal processing program. That is, the CPU 1802 executes a signal processing program stored in the memory 1804, and converts the input signal into a frequency domain signal including a phase component and an amplitude component or a power component (S1811). Next, the CPU 1802 estimates the amplitude component or power component of the environmental sound based on the amplitude component or power component of the frequency domain signal (S1812). Further, the CPU 1802 detects a frequency at which the target sound does not exist based on the amplitude component or power component of the frequency domain signal (S1813).
- the CPU 1802 replaces the amplitude component or power component of the frequency domain signal with the amplitude component or power component of the environmental sound at a frequency where the target sound does not exist (S1814).
- the CPU 1802 uses the memory 1803 as necessary to temporarily store and process data.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
高品質な強調信号を得る。 信号処理装置は、変換部、推定部、検出部、及び、置換部を含む。変換部は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する。推定部は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する。検出部は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する。置換部は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する。
Description
本発明は、信号の位相成分を制御する信号処理技術に関する。
信号の位相成分を制御して信号処理を行なう技術の一例として、位相スペクトルに着目した雑音抑圧の技術について、特許文献1や非特許文献1に開示がある。特許文献1や非特許文献1に記載の技術は、雑音に関係する振幅スペクトルを抑圧すると同時に、位相スペクトルをπ/4までのランダム値だけシフトさせる。特許文献1や非特許文献1に記載の技術は、位相スペクトルをランダムにシフトさせることで、雑音スペクトルの減衰だけでは抑圧できない雑音の抑圧を実現する。
Akihiko Sugiyama,″Single−Channel Impact−Noise Suppression with NoAuxiliary Information for Its Detection,″Proc.IEEE Workshop on Appl.of Sig.Proc.to Audio and Acoustics(WASPAA),pp.127−130,Oct.2007.
しかしながら、特許文献1や非特許文献1に記載の技術のように、位相スペクトルをランダムにシフトさせると、隣接するフレーム間で位相スペクトルの不一致が生じ、フレーム合成時に信号レベルが低下する。その結果、雑音抑圧区間と雑音非抑圧区間で出力信号レベルに差が生じ、出力信号の品質が低下する。特に、目的音と環境音とをバランス良く効果的に強調することができなかった。
本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。
本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。
本発明の一態様における信号処理装置は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する変換手段と、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する推定手段と、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する検出手段と、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する置換手段と、を含む。
本発明の一態様における信号処理方法は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体に格納される信号処理プログラムは、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する、処理をコンピュータに実行させる。
本発明の一態様における信号処理方法は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体に格納される信号処理プログラムは、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する、処理をコンピュータに実行させる。
本発明によれば、目的音と環境音を効果的に強調する信号処理技術を提供することができる。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
(第1実施形態)
図1は、本発明の第1実施形態に係る信号処理装置100の概略構成を示す図である。
図1において、信号処理装置100は、変換部101と検出部102と推定部103と置換部104を備える。変換部101は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する。また、推定部102は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する。さらに、検出部103は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する。一方、置換部104は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する。
以上の構成により、第1実施形態に係る信号処理装置100は、目的音と環境音を効果的に強調することができる。
(第2実施形態)
《全体構成》
本発明の第2実施形態としての雑音抑圧装置200について図2乃至図13を用いて説明する。図2は、雑音抑圧装置200の全体構成を示すブロック図である。本実施形態の雑音抑圧装置200は、たとえばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能するが、本発明はこれに限定されるものではない。雑音抑圧装置200は、入力信号からのノイズ除去を要求されるあらゆる情報処理装置に適用可能である。
入力端子206には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子206に劣化信号が供給されると、変換部201は、供給された劣化信号にフーリエ変換などの変換を施して、複数の周波数成分に分割する。変換部201は、複数の周波数成分を各周波数で独立に処理する。ここでは、特定の周波数成分に注目して説明を続ける。変換部201は、複数の周波数成分のうち振幅スペクトル(振幅成分)230を雑音抑圧部205に供給する。変換部201は、複数の周波数成分のうち位相スペクトル(位相成分)220を位相制御部(第1制御部)202に供給する。なお、ここでは、変換部201は、雑音抑圧部205に劣化信号振幅スペクトル230を供給しているが、本発明はこれに限定されるものではない。変換部201は、劣化信号振幅スペクトル230の二乗に相当するパワースペクトルを雑音抑圧部205に供給してもよい。
雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトル230を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部205は、変換部201から供給された劣化信号振幅スペクトル230と、生成した推定雑音スペクトルとを用いて雑音を抑圧する。雑音抑圧部205は、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部(第2制御部)203に伝達する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転(シフト)させ、強調信号位相スペクトル240として逆変換部(合成部)204へ供給する。また、位相制御部202は、位相の回転量(シフト量)を、振幅制御部203へ伝達する。振幅制御部203は、位相制御部202から位相の回転量(シフト量)を受け取って振幅補正量を算出する。振幅制御部203は、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル250を生成する。振幅制御部203は、補正振幅スペクトル250を逆変換部204へ供給する。逆変換部204は、位相制御部202から供給された強調信号位相スペクトル240と、振幅制御部203から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
《変換部201の構成》
図3は、変換部201の構成を示すブロック図である。図3に示すように、変換部201はフレーム分割部301、窓がけ処理部(windowing unit)302、およびフーリエ変換部303を含む。劣化信号サンプルは、フレーム分割部301に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部302に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,...,K/2−1)に対するw(t)で窓がけ(windowing)された信号は、次式(1)で与えられる。
また、窓がけ処理部302は、連続する2フレームの一部を重ね合わせ(オーバーラップ)して窓がけしてもよい。オーバーラップ長としてフレーム長の50%を仮定すれば、t=0,1,...,K/2−1に対して、以下の式(2)で得られる左辺が、窓がけ処理部302の出力となる。
窓がけ処理部302は、実数信号に対しては、左右対称窓関数を用いても良い。また、窓関数は、MMSE STSA(Minimum Mean−Square Error Short−Time Spectral Amplitude Estimator:最小二乗平均誤差短時間振幅スペクトル推定)法における抑圧係数を1に設定したとき、またはSS(Spectrum Subtraction:スペクトル減算)法においてゼロを減算したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。
以後、連続する2フレームの50%をオーバーラップして窓がけする場合を例として説明を続ける。窓がけ処理部302は、w(t)として、たとえば、次式(3)に示すハニング窓を用いても良い。
このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部303に供給され、劣化信号スペクトルYn(k)に変換される。劣化信号スペクトルYn(k)は位相と振幅に分離され、劣化信号位相スペクトル220(arg Yn(k))は、位相制御部202に、劣化信号振幅スペクトル230(|Yn(k)|)は、雑音抑圧部205に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルが利用されても良い。
《逆変換部204の構成》
図4は、逆変換部204の構成を示すブロック図である。図4に示すように、逆変換部204は逆フーリエ変換部401、窓がけ処理部402およびフレーム合成部403を含む。逆フーリエ変換部401は、振幅制御部203から供給された補正振幅スペクトル250と位相制御部202から供給された強調信号位相スペクトル240(arg Yn(k))とを乗算して、強調信号(以下の式(4)の左辺)を求める。
逆フーリエ変換部401は、得られた強調信号に逆フーリエ変換を施す。逆フーリエ変換された強調信号は、1フレームがKサンプルを含む時間領域サンプル値系列xn(t)(t=0,1,...,K−1)として、窓がけ処理部402に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの入力信号xn(t)(t=0,1,...,K/2−1)に対してw(t)で窓がけされた信号は、次式(5)の左辺で与えられる。
また、窓がけ処理部302は、連続する2フレームの一部を重ね合わせ(オーバーラップ)して窓がけしてもよい。フレーム長の50%をオーバーラップ長として仮定すれば、t=0,1,...,K/2−1に対して、以下の式の左辺が、窓がけ処理部402の出力となり、フレーム合成部403に伝達される。
フレーム合成部403は、窓がけ処理部402からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式(7)によって、t=0,1,...,K−1における出力信号(式(7)の左辺)を得る。得られた出力信号は、フレーム合成部403から出力端子207に伝達される。
なお、図3と図4において変換部201と逆変換部204における変換をフーリエ変換として説明したが、変換部201、逆変換部204は、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いても良い。変換部201、逆変換部204がハール変換を用いた場合には、乗算が不要となり、LSI化したときの面積を小さくすることができる。変換部201、逆変換部204がウェーブレット変換を用いた場合には、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
また、変換部201において得られる周波数成分を複数統合してから、雑音抑圧部205で実際の抑圧を行っても良い。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合して、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
《雑音抑圧部205の構成》
図5は、本実施形態に係る雑音抑圧部205の内部構成を示すブロック図である。本実施形態では、図5に示すように、雑音抑圧部205が非目的音検出部552、環境音推定部553および振幅置換部551を含む。
非目的音検出部552は、劣化信号振幅スペクトル230を用いて、目的音の存在しない非目的音帯域554を検出し、振幅置換部551に供給する。
環境音推定部553は、劣化信号振幅スペクトル230を用いて、推定環境音振幅スペクトルを生成し、振幅置換部551に供給する。
振幅置換部551は、非目的音検出部552より供給される非目的音帯域554において、劣化信号振幅スペクトル230を、環境音推定部553より供給される推定環境音振幅スペクトルに置換し、振幅制御部203へ供給する。
《非目的音検出部552の詳細》
図6に、あるフレームにおける劣化信号振幅スペクトル230を示す。図6を参照しながら、非目的音検出部552における非目的音帯域554の検出方法を説明する。
まず、非目的音検出部552は、劣化信号振幅スペクトル230のピーク位置を検出する。ピーク位置は、ある周波数における劣化信号振幅スペクトル230の振幅値が、隣接する周波数の振幅値より大きい位置として、検出される。ピーク位置は、劣化信号振幅スペクトル230の頂点にあたる。図6では、実線の下向き矢印でピーク位置が示されている。
次に、非目的音検出部552は、振幅値検索範囲を設定する。非目的音検出部552は、ピーク位置を中心にした、左右一定の幅を、振幅値検索範囲に設定する。検索範囲の幅は、サンプリング周波数などに依存するパラメータである。なお、左右の幅は不等でもよい。図6では、横実線で振幅値検索範囲が示されている。
さらに、非目的音検出部552は、目的音判定閾値を設定する。目的音判定閾値は、ピーク位置の振幅値に係数を乗じた値である。係数は0以上1以下の値であり、その大きさは目的音の検出しやすさを調整するパラメータである。なお、非目的音検出部552は、目的音判定閾値を、乗算ではなく、減算で求めてもよい。減算する値は、ピーク位置振幅値に係数を乗じた値もしくは定数とする。図6では、横破線で目的音判定閾値が示されている。
非目的音検出部552は、以上の設定値に基づき、目的音帯域を検出する。目的音帯域は、劣化信号振幅スペクトル230が、振幅値検索範囲内で、ピーク位置を含み目的音判定閾値より大きい、連続した帯域である。ただし、振幅値検索範囲内において、劣化信号振幅スペクトル230が、目的音判定閾値をピーク位置両側で下回った場合だけ、目的音帯域は有効である。図6では、目的音帯域が斜線塗りで示されている。
例えば、ピーク位置(2)~(4)では、振幅値検索範囲内において、劣化信号振幅スペクトル230がピーク位置両側で目的音判定閾値よりも低下していない。よって、ピーク位置(2)~(4)においては、目的音帯域が検出されない。ピーク位置(1)および(5)では、振幅値検索範囲内において、劣化信号振幅スペクトル230がピーク位置両側で目的音判定閾値より低下している。よって、振幅値検索範囲内において、ピーク位置を含む目的音判定閾値より振幅値が大きい連続した帯域が目的音帯域と判定される。
最後に、前述の目的音帯域以外の帯域が非目的音帯域554として検出される。
《環境音推定部553の構成》
環境音推定部553は、劣化信号振幅スペクトル230を用いて、推定環境音振幅スペクトルを生成し、振幅置換部551に供給する。環境音の推定には、M.Kato,A.Sugiyama,and M.Serizawa,″Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA,″IEICE Trans.Fundamentals(Japanese Edition),vol.J87−A,no.7,pp.851−860,July 2004.(文献1)やR.Martin,″Spectral subtraction based on minimum statistics,″EUSPICO−94,pp.1182−1185,Sept.1994(文献2)に示されるように、様々な推定方法が利用できる。
たとえば、推定環境音振幅スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトル230の平均値とする方法(文献1)がある。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
理想的な動作状態として、強調信号は環境音以外の目的音となっている。また、目的音や環境音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルが環境音区間判定の指標とされる。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームが環境音区間と判定される。環境音振幅スペクトルは、環境音区間と判定されたフレームの劣化信号振幅スペクトル230を平均化することで推定される。
また、推定環境音振幅スペクトルを、劣化信号振幅スペクトル230が供給され始めた推定初期の平均値とする方法(文献1)もある。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトル230が推定環境音振幅スペクトルとされる。
さらに、推定環境音振幅スペクトルを、統計的な劣化信号振幅スペクトル230の最小値から求める方法(文献2)もある。この方法では、統計的に一定時間における劣化信号振幅スペクトル230の最小値を保持し、その最小値から環境音振幅スペクトルを推定する。劣化信号振幅スペクトル230の最小値は、環境音振幅スペクトルのスペクトル形状と似ているため、環境音振幅スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の環境音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定環境音振幅スペクトルとして用いる。
加えて、環境音推定部553は、非目的音検出部552より得られる非目的音帯域554だけで、環境音を推定してもよい。非目的音帯域だけで推定すると、目的音の影響が軽減され、環境音の推定精度が向上する。
《振幅置換部551の構成》
振幅置換部551は、非目的音検出部552より供給される非目的音帯域554において、劣化信号振幅スペクトル230を、環境音推定部553より供給される推定環境音振幅スペクトルに置換し、振幅制御部203へ供給する。
振幅置換部551は、推定環境音振幅スペクトルへの置換を、抑圧係数を用いて実現してもよい。この場合、振幅置換部551は、推定環境音振幅スペクトルを劣化信号振幅スペクトル230で除した値を抑圧係数とし、この抑圧係数を劣化信号振幅スペクトル230に乗じることで、置換と等価の処理を実現する。
《位相制御部202および振幅制御部203の構成》
図7は位相制御部202および振幅制御部203の構成を示すブロック図である。図7に示すように、位相制御部202は位相回転部701と回転量生成部702とを含む。振幅制御部203は、補正量算出部703と振幅補正部704とを含む。
回転量生成部702は、劣化信号位相スペクトル220の回転量を生成し、位相回転部701と補正量算出部703に供給する。位相回転部701は、変換部201から劣化信号位相スペクトル220が供給され、回転量生成部702から回転量が供給される。位相回転部701は、劣化信号位相スペクトル220を供給された回転量だけ回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。補正量算出部703は、回転量生成部702から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部704に供給する。回転量生成部702は、たとえば乱数によって回転量を生成する。位相回転部701は、回転量生成部702が乱数により生成した回転量を用いて劣化信号位相スペクトル220を各周波数で回転させる。位相回転部701が行う回転により、劣化信号位相スペクトル220の形状が変化する。この形状の変化により、雑音の特徴を弱めることができる。
乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがある。ここでは一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生する。ここでは、線形合同法での一様乱数を例に挙げ、説明を続ける。線形合同法で発生させた一様乱数は、0~(2^M)−1の範囲に一様に分布する。
ここで、Mは任意の整数であり、^はべき乗を表している。位相の回転量φは、0~2πの範囲に分布させる必要がある。そこで、発生させた一様乱数は、0~2πの範囲に分布されるように変換される。変換は、以下の式(8)で行う。ここで、Rは一様乱数であり、Rmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)−1となる。
計算の簡単化のために、Rの値は、そのまま回転量とされても良い。回転量であるので2πはちょうど一回転を表す。位相を2π回転させた場合は回転させていない場合と同一である。よって、2π+αという回転量は、回転量がαの場合と同じになる。ここでは、線形合同法により一様乱数を発生させた場合を説明したが、それ以外の方法で一様乱数を発生させた場合でも、式(8)により回転量φを求めればよい。
位相回転部701は、回転量生成部702から回転量を受け取り、劣化信号位相スペクトル220を回転させる。もし、劣化信号位相スペクトル220が角度で表現されている場合には、位相回転部701は、その角度に回転量φの値を加算することで回転させる。劣化信号位相スペクトル220が複素数の正規ベクトルで表現されている場合には、位相回転部701は、回転量φの正規ベクトルを求め、劣化信号位相スペクトル220に乗算することで回転させる。
回転量φの正規ベクトルは、式(9)で求められる。ここで、Φは回転ベクトルである。jはsqrt(−1)を示す。なお、sqrtは二乗根を表している。
補正量算出部703による、補正係数算出方法について説明する。まず、位相の回転により出力レベルの低下が生じることを、図8および図9を用いて説明する。
図8および図9は、劣化信号が図2に示すブロック図で処理された場合の信号を示している。図8と図9の違いは位相回転の有無である。図8は位相回転を行わない場合の信号を、図9は位相回転をフレーム3から行った場合の信号を示している。
まず、位相を回転しない場合の信号について図8を用いて説明する。図8の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部301においてフレーム分割される。点線で区切られた、上から2番目の信号が、フレーム分割後の信号である。図8では、連続した4フレーム分の信号を図示した。また、フレームのオーバーラップ率は50%としている。
窓掛け処理部302は、フレームに分割された信号に窓掛けを行う。点線で区切られた、上から3番目の信号が窓掛け処理後の信号である。図8では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。
次に、フーリエ変換部303によって、周波数領域の信号に変換されるが、図8では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部204の逆フーリエ変換部401により、時間領域へ変換された信号を図示している。点線で区切られた、上から4番目の信号が位相回転後の信号である。ただし、図8では位相回転を行っていないため、窓掛け処理後の信号から変化していない。
逆変換部204の逆フーリエ変換部401から出力された強調信号は、窓掛け処理を再度実施される。図8では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部403において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバーラップ率が50%であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図8のように入力信号と出力信号は一致する。
一方、位相を回転する場合の信号について図9を用いて説明する。図9に示したのは位相回転をフレーム3から実施した場合の信号である。最上部に描かれているのは、図8と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図8と同様である。
図9では、フレーム3から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム3および4の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理が行われ、フレーム合成される。このとき、フレーム2とフレーム3が重なるiiの区間で、フレーム2とフレーム3の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図9のiiの区間で出力信号レベルが低下する。
この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。
図10に、フレーム分割および窓掛け処理後の連続した2フレームの劣化信号を、x1[n]およびx2[m]として示す。なお、オーバーラップ率は50%としている。ここで、nはx1の離散時間を表す。mはx2の離散時間を表す。オーバーラップ率が50%の場合には、以下の式(10)が成立する。
また、x1とx2の関係は、以下の式(11)のようになる。
まず、時間領域信号から周波数領域信号への変換および逆変換の式を示す。周波数領域信号X[k]は、時間領域信号x[n]のフーリエ変換によって、以下の式(12)のように表現される。ここで、kは離散周波数を表し、Lはフレーム長である。
また、周波数領域信号X[k]を逆変換により、時間領域信号x[n]に戻すと、以下の式(13)のように表現される。
これに基づいて、時間領域信号x1[n],x2[m]を、周波数領域信号X1[k],X2[k]に変換すると、以下の式(14)、式(15)のように表現される。
周波数領域信号X1[k],X2[k]を、逆変換によってそれぞれ時間領域信号x1[n],x2[m]に戻すと、式(13)より、以下の式(16)、式(17)のように表現される。
逆変換部は、逆フーリエ変換により周波数領域信号を時間領域信号に変換する。その後、フレーム合成部により、前フレームと現フレームの強調音声をオーバーラップ加算する。
たとえば、図示した例のオーバーラップ率50%では、フレーム合成部403は、離散時間m=L/2~L−1の区間で隣接フレームの加算を行う。この加算区間m=L/2~L−1を考える。時間領域の加算に、式(16)および式(17)を代入すると、以下の式(18)のように表現される。
さらに、式(18)中の周波数領域信号X1[k],X2[k]に式(14),式(15)を代入すると、以下の式(19)のように表現される。
さらに、式(19)を展開すると、以下の式(20)のように表現される。
ここで、式(20)の各項に含まれる総和演算を考える。任意の整数gを導入し、以下の式(21)が成立する。
デルタ関数δ[g]のフーリエ逆変換式は、式(22)で示される。
ここで、デルタ関数δ[g]は、以下の式(23)で示される。
式(22)より、式(21)は、以下の式(24)に変形できる。
式(24)の関係から、式(20)は、以下の式(25)で表わされる。
よって、式(20)は、以下の式(26)となる。
さて、ここで周波数領域信号X2[k]に対し、位相回転を行った場合を考える。このときの時間領域信号は、図11のようになる。
X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式(27)となる。
これを、式(18)に代入すると、以下の式(28)が成立する。
これを展開すると、以下の式(29)が成立する。
ここで、オーバーラップ率50%と仮定し、オーバーラップ区間のn=L/2~L−1について考える。オーバーラップ区間では、式(11)より、以下の式(30)のように展開できる。
ここで、それぞれの項にある括弧内の項(式(31)に示す)は、ベクトル合成であるから、特定の周波数kに注目すると、図12のように描ける。
もし、位相回転が行われていないとき、つまりφ[k]=0の場合は、図13のようになる。
式(31)の絶対値を求めると、以下の式(32)となる。
よって、式(31)の絶対値が最大になる条件は、φ[k]=0の場合であり、その値は2である。つまり、位相回転が行われると、出力信号の大きさが小さくなることがわかる。
この出力信号レベルの低下量(変化量)を補正するように、補正量算出部703は、強調信号振幅スペクトルの振幅補正量を決定する。
ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動(変化量)に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。
まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図13に示されるベクトルSのようになり、そのベクトルの大きさ|S|は、以下の式(33)で表わされる。
一方、一様乱数により位相回転を行う場合、連続するフレーム間位相差φは、−πから+πまでの範囲に一様に分布する。この連続するフレーム間で位相が異なる場合の合成ベクトルは、図12に示されるベクトルS′のようになる。そのベクトルの大きさ|S′|は、以下の式(34)で表わされる。
さて、ここで、期待値E(|S′|^2)を求めると、以下の式(35)のようになる。
ここで、φが−πから+πまで一様分布することから、以下の式(36)のようになる。
このため、|S′|^2の期待値は、以下の式(37)で表わされる。
さて、位相の回転をしない場合の、期待値E(|S|^2)は、式(33)より以下の式(38)で表わされる。
式(37)と式(38)の比を取ると、以下の式(39)が成立する。
つまり、位相を一様乱数で回転させる場合、出力信号のパワー平均値は入力と比較して、1/2だけ小さくなる。振幅補正部704は振幅値に対し補正を行う。そのため、補正量算出部703は補正係数をsqrt(2)とし、振幅補正部704に伝達する。
ここでは、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数は一意に定められる。正規乱数を使う場合の補正係数の導出を以下に説明する。
正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けが行われる必要がある。
具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)は、重みづけされる。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。
正規乱数による位相回転を行った場合の出力パワー期待値E(S′′^2)は、一様乱数の出力パワー期待値である式(35)に、重み付け関数f(φ)およびその積分値を導入し、以下の式(40)のように表現できる。
重み関数f(φ)は、正規分布により表現できるので、以下の式(41)が成立する。
ここで、σは分散をμは平均を表している。
たとえば、平均値μ=0,分散σ=1の標準正規分布では、以下の式(42)となるので、これを式(40)に代入すると、式(43)のようになる。
ここで、式(43)の右辺、第2項を数値計算すると、式(44)が成立するので、位相の回転をしない場合の、E(|S^2|)との比は、式(45)で表わされる。
補正量算出部703は、位相を標準正規分布の正規乱数で回転させる場合、振幅補正部704に補正係数をsqrt(1/0.805)として、伝達する。位相制御部202は、位相回転をすべての周波数に対して行っても良いし、一部の周波数に対して行っても良い。振幅制御部203は、振幅補正を、位相回転が行われた周波数に対してのみ行う。よって、位相回転を行わない周波数の補正係数は、1.0とする。位相回転を行った周波数の補正係数のみ導出した値とする。
《振幅補正部504の説明》
振幅制御部203では、位相制御部202から伝達された位相の回転量を用いて振幅補正係数を算出する。振幅制御部203は、算出した振幅補正係数を雑音抑圧部205から供給された強調信号振幅スペクトルに乗じ、逆変換部204に供給する。強調信号振幅スペクトルに振幅補正係数を乗じることにより、雑音抑圧装置200は、劣化信号位相スペクトル220を回転させ、強調信号位相スペクトル240を得た場合の出力レベル低下を解消することができる。
以上のように、本実施形態に係る雑音抑圧装置200は、位相スペクトルを回転操作することによる出力信号レベルへの影響を振幅制御部203により取り除くことができる。そのため、雑音抑圧装置200は、目的音と環境音とを効果的に強調した強調信号を得ることができる。
(第3実施形態)
本発明の第3実施形態について、図14を用いて説明する。図14は、本実施形態に係る位相制御部1402の構成を示すブロック図である。
本実施形態では、図14に示すように、回転量生成部1421において、非目的音検出部552より供給される非目的音帯域554を用いる点で、第2実施形態と異なる。それ以外の構成および動作については第2実施形態と同様であるためここでは詳しい説明を省略する。
回転量生成部1421は、非目的音検出部552より供給される非目的音帯域554だけで回転量を生成し、位相回転部701と振幅制御部203に供給する。
位相回転部701は、回転量生成部1421から回転量が供給される。位相回転部701は、変換部201から供給される劣化信号位相スペクトル220を、供給された回転量だけ回転(シフト)もしくは回転量に置換し、強調信号位相スペクトル240として逆変換部204へ供給する。
以上、非目的音帯域554だけで回転量を生成する方式を説明したが、全周波数で回転量を生成し、非目的音帯域554だけで位相回転しても同様の効果が得られる。この方式は、以下の処理によって実現される。
非目的音検出部552より検出される非目的音帯域554は、位相回転部701および振幅制御部203に供給される。位相回転部701は、非目的音帯域554だけで劣化信号位相スペクトル220を回転させ、強調信号位相スペクトル240を得る。振幅制御部203は、非目的音帯域554だけで振幅制御する。
《回転量生成部1421の構成》
回転量生成部1421は、非目的音検出部552から供給される非目的音帯域554において、劣化信号位相スペクトル220の回転量を生成し、位相回転部701と振幅制御部203に供給する。回転量生成部1421は、回転量の生成に、第2実施形態における回転量生成手法を用いる。
以上の実施形態によれば、第2実施形態の効果に加えて、非目的音帯域554だけで位相を回転(シフト)するため、目的音の劣化を軽減することができる。
(第4実施形態)
本発明の第4実施形態について、図15および図16を用いて説明する。図15は、本実施形態に係る雑音抑圧装置1500の構成を示す図である。本実施形態に係る雑音抑圧装置1500は、第2実施形態の図2の構成に加え、振幅成分遅延部1511、位相成分遅延部1512および逆変換部1513を含む。また、振幅制御部1503の内部構成にも差異がある。本実施形態において、振幅成分遅延部1511、位相成分遅延部1512および振幅制御部1503以外の動作については、第3実施形態と同様であるためここではその説明を省略する。
入力端子206に供給された劣化信号は、変換部201と振幅制御部1503に供給される。変換部201は、劣化信号振幅スペクトル230を振幅成分遅延部1511および逆変換部1513に供給する。また、変換部201は、劣化信号位相スペクトル220を位相制御部202に供給する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転させ、強調信号位相スペクトルとして逆変換部1513および位相成分遅延部1512へ供給する。また、位相制御部202は、各周波数における位相回転の有無を、振幅制御部1503へ伝達する。
逆変換部1513は、変換部201から供給された劣化信号振幅スペクトル230と位相制御部202から供給される強調信号位相スペクトルを用いて、位相回転によるレベル低下の生じた信号を振幅制御部1503に伝達する。
振幅成分遅延部1511は、変換部201からの劣化信号振幅スペクトル230を遅延させ、雑音抑圧部205に供給する。
位相成分遅延部1512は、位相制御部202からの強調信号位相スペクトルを遅延させ、逆変換部204に供給する。雑音抑圧部205は、振幅成分遅延部1511から供給される劣化信号振幅スペクトルを用いて、雑音を推定し、推定雑音スペクトルを生成する。
逆変換部204は、位相制御部202から位相成分遅延部1512を介して供給された、強調信号位相スペクトル240と、振幅制御部1503から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
劣化信号位相スペクトル220は、位相制御部202で制御され、逆変換部1513において時間領域の信号に変換される。振幅制御部1503は、その信号と劣化信号210とを用いて、位相回転によるレベルの変動量(変化量)を求める。
この変動量は位相回転部701による回転処理のみの変動である。そのため、振幅制御部1503は、位相の回転によるレベル変動を正確に捉えることができる。振幅制御部1503は、このレベル比を用いて振幅補正を行うが、求まるレベル比は1フレーム前のものである。
そこで、振幅成分遅延部1511と位相成分遅延部1512を導入し、1フレーム前の周波数成分に対して、振幅制御部1503において振幅補正を行う。
図16は、本実施形態に係る位相制御部202および振幅制御部1503の内部構成を説明するためのブロック図である。入出力比算出部1631は、入力端子206から供給される劣化信号と逆変換部1513から供給される、位相回転によるレベル低下分を含んだ信号から、レベル比を算出し、補正量算出部1233に供給する。
補正量算出部1233は、位相制御部202から各周波数における位相回転の有無の情報を受け取り、振幅補正量を算出する。振幅補正部704は、その振幅補正量に基づいて、強調信号振幅スペクトルを各周波数で補正し、逆変換部204へ供給する。なお、振幅成分遅延部1511は、雑音抑圧部205と振幅制御部1503の間に導入しても構わない。
本実施形態に係る雑音抑圧装置1500は、第3実施形態の効果に加え、入出力比の遅延を回避でき、より正確な出力レベルの補正を実現できる。
(第5実施形態)
本発明の第5実施形態について、図17を用いて説明する。図17に示すように、本実施形態に係る雑音抑圧装置1700は、第2実施形態の構成に加え、フレームオーバーラップ制御部1708を含む。フレームオーバーラップ制御部1708は、変換部201および逆変換部204において、フレームが分割、合成されるときのオーバーラップ率の制御を行う。フレームオーバーラップ制御部1708は、そのオーバーラップ率を振幅制御部203に供給する。既に説明したとおり、位相回転によるレベル低下はオーバーラップによって生じる。このレベル低下量はオーバーラップ率により変化し、オーバーラップ率が大きくなるほど、低下量も大きくなる。よって、オーバーラップ率が変化した場合には、振幅補正量を制御する必要がある。
具体的には、オーバーラップ率50%の場合の振幅補正量Gを基準に補正量を求める。オーバーラップ率が0%のとき振幅補正は必要無い。また、オーバーラップ率50%のとき振幅補正量はGである。そこで、振幅補正量は、フレーム長Lとオーバーラップ長Qの比を用いて、以下の式(46)で表される。ここで、G′はオーバーラップ率による補正を行った振幅補正量である。
たとえば、オーバーラップ率50%の場合は、Q=L/2であるので、以下の式(47)が成立し、オーバーラップ率25%の場合には、Q=L/4より以下の式(48)が成立する。
振幅制御部203は、式(46)に基づき、位相制御部202から伝達された補正係数を補正し、強調信号振幅スペクトルを補正する。本実施形態において、フレームオーバーラップ制御部1708以外の構成および動作については、第2実施形態と同様であるためここではその説明を省略する。
本実施形態に係る雑音抑圧装置1700は、第2実施形態の効果に加えて、フレームのオーバーラップ率を自由に設定できる。
(他の実施形態)
以上説明してきた第1乃至第5実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用してもよいし、単体の装置に適用してもよい。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
図18は、第1実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ1800の構成図である。コンピュータ1800は、入力部1801と、CPU1802と、出力部1803と、メモリ1804とを含む。
CPU1802は、信号処理プログラムを読み込むことにより、コンピュータ1800の動作を制御する。すなわち、CPU1802は、メモリ1804に格納された信号処理プログラムを実行し、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する(S1811)。次に、CPU1802は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する(S1812)。
さらに、CPU1802は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する(S1813)。CPU1802は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する(S1814)。
CPU1802は、必要に応じてメモリ1803を利用してデータの一時的な保存および処理を行なう。以上の構成および動作により、第1実施形態と同様の効果を得ることができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年8月11日に出願された日本出願特願2011−176121を基礎とする優先権を主張し、その開示の全てをここに取り込む。
(第1実施形態)
図1は、本発明の第1実施形態に係る信号処理装置100の概略構成を示す図である。
図1において、信号処理装置100は、変換部101と検出部102と推定部103と置換部104を備える。変換部101は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する。また、推定部102は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する。さらに、検出部103は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する。一方、置換部104は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する。
以上の構成により、第1実施形態に係る信号処理装置100は、目的音と環境音を効果的に強調することができる。
(第2実施形態)
《全体構成》
本発明の第2実施形態としての雑音抑圧装置200について図2乃至図13を用いて説明する。図2は、雑音抑圧装置200の全体構成を示すブロック図である。本実施形態の雑音抑圧装置200は、たとえばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能するが、本発明はこれに限定されるものではない。雑音抑圧装置200は、入力信号からのノイズ除去を要求されるあらゆる情報処理装置に適用可能である。
入力端子206には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子206に劣化信号が供給されると、変換部201は、供給された劣化信号にフーリエ変換などの変換を施して、複数の周波数成分に分割する。変換部201は、複数の周波数成分を各周波数で独立に処理する。ここでは、特定の周波数成分に注目して説明を続ける。変換部201は、複数の周波数成分のうち振幅スペクトル(振幅成分)230を雑音抑圧部205に供給する。変換部201は、複数の周波数成分のうち位相スペクトル(位相成分)220を位相制御部(第1制御部)202に供給する。なお、ここでは、変換部201は、雑音抑圧部205に劣化信号振幅スペクトル230を供給しているが、本発明はこれに限定されるものではない。変換部201は、劣化信号振幅スペクトル230の二乗に相当するパワースペクトルを雑音抑圧部205に供給してもよい。
雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトル230を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部205は、変換部201から供給された劣化信号振幅スペクトル230と、生成した推定雑音スペクトルとを用いて雑音を抑圧する。雑音抑圧部205は、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部(第2制御部)203に伝達する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転(シフト)させ、強調信号位相スペクトル240として逆変換部(合成部)204へ供給する。また、位相制御部202は、位相の回転量(シフト量)を、振幅制御部203へ伝達する。振幅制御部203は、位相制御部202から位相の回転量(シフト量)を受け取って振幅補正量を算出する。振幅制御部203は、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル250を生成する。振幅制御部203は、補正振幅スペクトル250を逆変換部204へ供給する。逆変換部204は、位相制御部202から供給された強調信号位相スペクトル240と、振幅制御部203から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
《変換部201の構成》
図3は、変換部201の構成を示すブロック図である。図3に示すように、変換部201はフレーム分割部301、窓がけ処理部(windowing unit)302、およびフーリエ変換部303を含む。劣化信号サンプルは、フレーム分割部301に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部302に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,...,K/2−1)に対するw(t)で窓がけ(windowing)された信号は、次式(1)で与えられる。
以後、連続する2フレームの50%をオーバーラップして窓がけする場合を例として説明を続ける。窓がけ処理部302は、w(t)として、たとえば、次式(3)に示すハニング窓を用いても良い。
《逆変換部204の構成》
図4は、逆変換部204の構成を示すブロック図である。図4に示すように、逆変換部204は逆フーリエ変換部401、窓がけ処理部402およびフレーム合成部403を含む。逆フーリエ変換部401は、振幅制御部203から供給された補正振幅スペクトル250と位相制御部202から供給された強調信号位相スペクトル240(arg Yn(k))とを乗算して、強調信号(以下の式(4)の左辺)を求める。
また、変換部201において得られる周波数成分を複数統合してから、雑音抑圧部205で実際の抑圧を行っても良い。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合して、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
《雑音抑圧部205の構成》
図5は、本実施形態に係る雑音抑圧部205の内部構成を示すブロック図である。本実施形態では、図5に示すように、雑音抑圧部205が非目的音検出部552、環境音推定部553および振幅置換部551を含む。
非目的音検出部552は、劣化信号振幅スペクトル230を用いて、目的音の存在しない非目的音帯域554を検出し、振幅置換部551に供給する。
環境音推定部553は、劣化信号振幅スペクトル230を用いて、推定環境音振幅スペクトルを生成し、振幅置換部551に供給する。
振幅置換部551は、非目的音検出部552より供給される非目的音帯域554において、劣化信号振幅スペクトル230を、環境音推定部553より供給される推定環境音振幅スペクトルに置換し、振幅制御部203へ供給する。
《非目的音検出部552の詳細》
図6に、あるフレームにおける劣化信号振幅スペクトル230を示す。図6を参照しながら、非目的音検出部552における非目的音帯域554の検出方法を説明する。
まず、非目的音検出部552は、劣化信号振幅スペクトル230のピーク位置を検出する。ピーク位置は、ある周波数における劣化信号振幅スペクトル230の振幅値が、隣接する周波数の振幅値より大きい位置として、検出される。ピーク位置は、劣化信号振幅スペクトル230の頂点にあたる。図6では、実線の下向き矢印でピーク位置が示されている。
次に、非目的音検出部552は、振幅値検索範囲を設定する。非目的音検出部552は、ピーク位置を中心にした、左右一定の幅を、振幅値検索範囲に設定する。検索範囲の幅は、サンプリング周波数などに依存するパラメータである。なお、左右の幅は不等でもよい。図6では、横実線で振幅値検索範囲が示されている。
さらに、非目的音検出部552は、目的音判定閾値を設定する。目的音判定閾値は、ピーク位置の振幅値に係数を乗じた値である。係数は0以上1以下の値であり、その大きさは目的音の検出しやすさを調整するパラメータである。なお、非目的音検出部552は、目的音判定閾値を、乗算ではなく、減算で求めてもよい。減算する値は、ピーク位置振幅値に係数を乗じた値もしくは定数とする。図6では、横破線で目的音判定閾値が示されている。
非目的音検出部552は、以上の設定値に基づき、目的音帯域を検出する。目的音帯域は、劣化信号振幅スペクトル230が、振幅値検索範囲内で、ピーク位置を含み目的音判定閾値より大きい、連続した帯域である。ただし、振幅値検索範囲内において、劣化信号振幅スペクトル230が、目的音判定閾値をピーク位置両側で下回った場合だけ、目的音帯域は有効である。図6では、目的音帯域が斜線塗りで示されている。
例えば、ピーク位置(2)~(4)では、振幅値検索範囲内において、劣化信号振幅スペクトル230がピーク位置両側で目的音判定閾値よりも低下していない。よって、ピーク位置(2)~(4)においては、目的音帯域が検出されない。ピーク位置(1)および(5)では、振幅値検索範囲内において、劣化信号振幅スペクトル230がピーク位置両側で目的音判定閾値より低下している。よって、振幅値検索範囲内において、ピーク位置を含む目的音判定閾値より振幅値が大きい連続した帯域が目的音帯域と判定される。
最後に、前述の目的音帯域以外の帯域が非目的音帯域554として検出される。
《環境音推定部553の構成》
環境音推定部553は、劣化信号振幅スペクトル230を用いて、推定環境音振幅スペクトルを生成し、振幅置換部551に供給する。環境音の推定には、M.Kato,A.Sugiyama,and M.Serizawa,″Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA,″IEICE Trans.Fundamentals(Japanese Edition),vol.J87−A,no.7,pp.851−860,July 2004.(文献1)やR.Martin,″Spectral subtraction based on minimum statistics,″EUSPICO−94,pp.1182−1185,Sept.1994(文献2)に示されるように、様々な推定方法が利用できる。
たとえば、推定環境音振幅スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトル230の平均値とする方法(文献1)がある。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
理想的な動作状態として、強調信号は環境音以外の目的音となっている。また、目的音や環境音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルが環境音区間判定の指標とされる。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームが環境音区間と判定される。環境音振幅スペクトルは、環境音区間と判定されたフレームの劣化信号振幅スペクトル230を平均化することで推定される。
また、推定環境音振幅スペクトルを、劣化信号振幅スペクトル230が供給され始めた推定初期の平均値とする方法(文献1)もある。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトル230が推定環境音振幅スペクトルとされる。
さらに、推定環境音振幅スペクトルを、統計的な劣化信号振幅スペクトル230の最小値から求める方法(文献2)もある。この方法では、統計的に一定時間における劣化信号振幅スペクトル230の最小値を保持し、その最小値から環境音振幅スペクトルを推定する。劣化信号振幅スペクトル230の最小値は、環境音振幅スペクトルのスペクトル形状と似ているため、環境音振幅スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の環境音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定環境音振幅スペクトルとして用いる。
加えて、環境音推定部553は、非目的音検出部552より得られる非目的音帯域554だけで、環境音を推定してもよい。非目的音帯域だけで推定すると、目的音の影響が軽減され、環境音の推定精度が向上する。
《振幅置換部551の構成》
振幅置換部551は、非目的音検出部552より供給される非目的音帯域554において、劣化信号振幅スペクトル230を、環境音推定部553より供給される推定環境音振幅スペクトルに置換し、振幅制御部203へ供給する。
振幅置換部551は、推定環境音振幅スペクトルへの置換を、抑圧係数を用いて実現してもよい。この場合、振幅置換部551は、推定環境音振幅スペクトルを劣化信号振幅スペクトル230で除した値を抑圧係数とし、この抑圧係数を劣化信号振幅スペクトル230に乗じることで、置換と等価の処理を実現する。
《位相制御部202および振幅制御部203の構成》
図7は位相制御部202および振幅制御部203の構成を示すブロック図である。図7に示すように、位相制御部202は位相回転部701と回転量生成部702とを含む。振幅制御部203は、補正量算出部703と振幅補正部704とを含む。
回転量生成部702は、劣化信号位相スペクトル220の回転量を生成し、位相回転部701と補正量算出部703に供給する。位相回転部701は、変換部201から劣化信号位相スペクトル220が供給され、回転量生成部702から回転量が供給される。位相回転部701は、劣化信号位相スペクトル220を供給された回転量だけ回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。補正量算出部703は、回転量生成部702から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部704に供給する。回転量生成部702は、たとえば乱数によって回転量を生成する。位相回転部701は、回転量生成部702が乱数により生成した回転量を用いて劣化信号位相スペクトル220を各周波数で回転させる。位相回転部701が行う回転により、劣化信号位相スペクトル220の形状が変化する。この形状の変化により、雑音の特徴を弱めることができる。
乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがある。ここでは一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生する。ここでは、線形合同法での一様乱数を例に挙げ、説明を続ける。線形合同法で発生させた一様乱数は、0~(2^M)−1の範囲に一様に分布する。
ここで、Mは任意の整数であり、^はべき乗を表している。位相の回転量φは、0~2πの範囲に分布させる必要がある。そこで、発生させた一様乱数は、0~2πの範囲に分布されるように変換される。変換は、以下の式(8)で行う。ここで、Rは一様乱数であり、Rmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)−1となる。
位相回転部701は、回転量生成部702から回転量を受け取り、劣化信号位相スペクトル220を回転させる。もし、劣化信号位相スペクトル220が角度で表現されている場合には、位相回転部701は、その角度に回転量φの値を加算することで回転させる。劣化信号位相スペクトル220が複素数の正規ベクトルで表現されている場合には、位相回転部701は、回転量φの正規ベクトルを求め、劣化信号位相スペクトル220に乗算することで回転させる。
回転量φの正規ベクトルは、式(9)で求められる。ここで、Φは回転ベクトルである。jはsqrt(−1)を示す。なお、sqrtは二乗根を表している。
図8および図9は、劣化信号が図2に示すブロック図で処理された場合の信号を示している。図8と図9の違いは位相回転の有無である。図8は位相回転を行わない場合の信号を、図9は位相回転をフレーム3から行った場合の信号を示している。
まず、位相を回転しない場合の信号について図8を用いて説明する。図8の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部301においてフレーム分割される。点線で区切られた、上から2番目の信号が、フレーム分割後の信号である。図8では、連続した4フレーム分の信号を図示した。また、フレームのオーバーラップ率は50%としている。
窓掛け処理部302は、フレームに分割された信号に窓掛けを行う。点線で区切られた、上から3番目の信号が窓掛け処理後の信号である。図8では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。
次に、フーリエ変換部303によって、周波数領域の信号に変換されるが、図8では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部204の逆フーリエ変換部401により、時間領域へ変換された信号を図示している。点線で区切られた、上から4番目の信号が位相回転後の信号である。ただし、図8では位相回転を行っていないため、窓掛け処理後の信号から変化していない。
逆変換部204の逆フーリエ変換部401から出力された強調信号は、窓掛け処理を再度実施される。図8では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部403において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバーラップ率が50%であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図8のように入力信号と出力信号は一致する。
一方、位相を回転する場合の信号について図9を用いて説明する。図9に示したのは位相回転をフレーム3から実施した場合の信号である。最上部に描かれているのは、図8と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図8と同様である。
図9では、フレーム3から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム3および4の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理が行われ、フレーム合成される。このとき、フレーム2とフレーム3が重なるiiの区間で、フレーム2とフレーム3の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図9のiiの区間で出力信号レベルが低下する。
この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。
図10に、フレーム分割および窓掛け処理後の連続した2フレームの劣化信号を、x1[n]およびx2[m]として示す。なお、オーバーラップ率は50%としている。ここで、nはx1の離散時間を表す。mはx2の離散時間を表す。オーバーラップ率が50%の場合には、以下の式(10)が成立する。
たとえば、図示した例のオーバーラップ率50%では、フレーム合成部403は、離散時間m=L/2~L−1の区間で隣接フレームの加算を行う。この加算区間m=L/2~L−1を考える。時間領域の加算に、式(16)および式(17)を代入すると、以下の式(18)のように表現される。
X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式(27)となる。
式(31)の絶対値を求めると、以下の式(32)となる。
この出力信号レベルの低下量(変化量)を補正するように、補正量算出部703は、強調信号振幅スペクトルの振幅補正量を決定する。
ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動(変化量)に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。
まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図13に示されるベクトルSのようになり、そのベクトルの大きさ|S|は、以下の式(33)で表わされる。
ここでは、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数は一意に定められる。正規乱数を使う場合の補正係数の導出を以下に説明する。
正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けが行われる必要がある。
具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)は、重みづけされる。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。
正規乱数による位相回転を行った場合の出力パワー期待値E(S′′^2)は、一様乱数の出力パワー期待値である式(35)に、重み付け関数f(φ)およびその積分値を導入し、以下の式(40)のように表現できる。
たとえば、平均値μ=0,分散σ=1の標準正規分布では、以下の式(42)となるので、これを式(40)に代入すると、式(43)のようになる。
《振幅補正部504の説明》
振幅制御部203では、位相制御部202から伝達された位相の回転量を用いて振幅補正係数を算出する。振幅制御部203は、算出した振幅補正係数を雑音抑圧部205から供給された強調信号振幅スペクトルに乗じ、逆変換部204に供給する。強調信号振幅スペクトルに振幅補正係数を乗じることにより、雑音抑圧装置200は、劣化信号位相スペクトル220を回転させ、強調信号位相スペクトル240を得た場合の出力レベル低下を解消することができる。
以上のように、本実施形態に係る雑音抑圧装置200は、位相スペクトルを回転操作することによる出力信号レベルへの影響を振幅制御部203により取り除くことができる。そのため、雑音抑圧装置200は、目的音と環境音とを効果的に強調した強調信号を得ることができる。
(第3実施形態)
本発明の第3実施形態について、図14を用いて説明する。図14は、本実施形態に係る位相制御部1402の構成を示すブロック図である。
本実施形態では、図14に示すように、回転量生成部1421において、非目的音検出部552より供給される非目的音帯域554を用いる点で、第2実施形態と異なる。それ以外の構成および動作については第2実施形態と同様であるためここでは詳しい説明を省略する。
回転量生成部1421は、非目的音検出部552より供給される非目的音帯域554だけで回転量を生成し、位相回転部701と振幅制御部203に供給する。
位相回転部701は、回転量生成部1421から回転量が供給される。位相回転部701は、変換部201から供給される劣化信号位相スペクトル220を、供給された回転量だけ回転(シフト)もしくは回転量に置換し、強調信号位相スペクトル240として逆変換部204へ供給する。
以上、非目的音帯域554だけで回転量を生成する方式を説明したが、全周波数で回転量を生成し、非目的音帯域554だけで位相回転しても同様の効果が得られる。この方式は、以下の処理によって実現される。
非目的音検出部552より検出される非目的音帯域554は、位相回転部701および振幅制御部203に供給される。位相回転部701は、非目的音帯域554だけで劣化信号位相スペクトル220を回転させ、強調信号位相スペクトル240を得る。振幅制御部203は、非目的音帯域554だけで振幅制御する。
《回転量生成部1421の構成》
回転量生成部1421は、非目的音検出部552から供給される非目的音帯域554において、劣化信号位相スペクトル220の回転量を生成し、位相回転部701と振幅制御部203に供給する。回転量生成部1421は、回転量の生成に、第2実施形態における回転量生成手法を用いる。
以上の実施形態によれば、第2実施形態の効果に加えて、非目的音帯域554だけで位相を回転(シフト)するため、目的音の劣化を軽減することができる。
(第4実施形態)
本発明の第4実施形態について、図15および図16を用いて説明する。図15は、本実施形態に係る雑音抑圧装置1500の構成を示す図である。本実施形態に係る雑音抑圧装置1500は、第2実施形態の図2の構成に加え、振幅成分遅延部1511、位相成分遅延部1512および逆変換部1513を含む。また、振幅制御部1503の内部構成にも差異がある。本実施形態において、振幅成分遅延部1511、位相成分遅延部1512および振幅制御部1503以外の動作については、第3実施形態と同様であるためここではその説明を省略する。
入力端子206に供給された劣化信号は、変換部201と振幅制御部1503に供給される。変換部201は、劣化信号振幅スペクトル230を振幅成分遅延部1511および逆変換部1513に供給する。また、変換部201は、劣化信号位相スペクトル220を位相制御部202に供給する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転させ、強調信号位相スペクトルとして逆変換部1513および位相成分遅延部1512へ供給する。また、位相制御部202は、各周波数における位相回転の有無を、振幅制御部1503へ伝達する。
逆変換部1513は、変換部201から供給された劣化信号振幅スペクトル230と位相制御部202から供給される強調信号位相スペクトルを用いて、位相回転によるレベル低下の生じた信号を振幅制御部1503に伝達する。
振幅成分遅延部1511は、変換部201からの劣化信号振幅スペクトル230を遅延させ、雑音抑圧部205に供給する。
位相成分遅延部1512は、位相制御部202からの強調信号位相スペクトルを遅延させ、逆変換部204に供給する。雑音抑圧部205は、振幅成分遅延部1511から供給される劣化信号振幅スペクトルを用いて、雑音を推定し、推定雑音スペクトルを生成する。
逆変換部204は、位相制御部202から位相成分遅延部1512を介して供給された、強調信号位相スペクトル240と、振幅制御部1503から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
劣化信号位相スペクトル220は、位相制御部202で制御され、逆変換部1513において時間領域の信号に変換される。振幅制御部1503は、その信号と劣化信号210とを用いて、位相回転によるレベルの変動量(変化量)を求める。
この変動量は位相回転部701による回転処理のみの変動である。そのため、振幅制御部1503は、位相の回転によるレベル変動を正確に捉えることができる。振幅制御部1503は、このレベル比を用いて振幅補正を行うが、求まるレベル比は1フレーム前のものである。
そこで、振幅成分遅延部1511と位相成分遅延部1512を導入し、1フレーム前の周波数成分に対して、振幅制御部1503において振幅補正を行う。
図16は、本実施形態に係る位相制御部202および振幅制御部1503の内部構成を説明するためのブロック図である。入出力比算出部1631は、入力端子206から供給される劣化信号と逆変換部1513から供給される、位相回転によるレベル低下分を含んだ信号から、レベル比を算出し、補正量算出部1233に供給する。
補正量算出部1233は、位相制御部202から各周波数における位相回転の有無の情報を受け取り、振幅補正量を算出する。振幅補正部704は、その振幅補正量に基づいて、強調信号振幅スペクトルを各周波数で補正し、逆変換部204へ供給する。なお、振幅成分遅延部1511は、雑音抑圧部205と振幅制御部1503の間に導入しても構わない。
本実施形態に係る雑音抑圧装置1500は、第3実施形態の効果に加え、入出力比の遅延を回避でき、より正確な出力レベルの補正を実現できる。
(第5実施形態)
本発明の第5実施形態について、図17を用いて説明する。図17に示すように、本実施形態に係る雑音抑圧装置1700は、第2実施形態の構成に加え、フレームオーバーラップ制御部1708を含む。フレームオーバーラップ制御部1708は、変換部201および逆変換部204において、フレームが分割、合成されるときのオーバーラップ率の制御を行う。フレームオーバーラップ制御部1708は、そのオーバーラップ率を振幅制御部203に供給する。既に説明したとおり、位相回転によるレベル低下はオーバーラップによって生じる。このレベル低下量はオーバーラップ率により変化し、オーバーラップ率が大きくなるほど、低下量も大きくなる。よって、オーバーラップ率が変化した場合には、振幅補正量を制御する必要がある。
具体的には、オーバーラップ率50%の場合の振幅補正量Gを基準に補正量を求める。オーバーラップ率が0%のとき振幅補正は必要無い。また、オーバーラップ率50%のとき振幅補正量はGである。そこで、振幅補正量は、フレーム長Lとオーバーラップ長Qの比を用いて、以下の式(46)で表される。ここで、G′はオーバーラップ率による補正を行った振幅補正量である。
本実施形態に係る雑音抑圧装置1700は、第2実施形態の効果に加えて、フレームのオーバーラップ率を自由に設定できる。
(他の実施形態)
以上説明してきた第1乃至第5実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用してもよいし、単体の装置に適用してもよい。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
図18は、第1実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ1800の構成図である。コンピュータ1800は、入力部1801と、CPU1802と、出力部1803と、メモリ1804とを含む。
CPU1802は、信号処理プログラムを読み込むことにより、コンピュータ1800の動作を制御する。すなわち、CPU1802は、メモリ1804に格納された信号処理プログラムを実行し、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する(S1811)。次に、CPU1802は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する(S1812)。
さらに、CPU1802は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する(S1813)。CPU1802は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する(S1814)。
CPU1802は、必要に応じてメモリ1803を利用してデータの一時的な保存および処理を行なう。以上の構成および動作により、第1実施形態と同様の効果を得ることができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年8月11日に出願された日本出願特願2011−176121を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (8)
- 入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する変換手段と、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する推定手段と、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する検出手段と、
前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する置換手段と、
を含む信号処理装置。 - 前記周波数領域信号の所定周波数の前記位相成分を回転させる第1制御手段と、
前記第1制御手段が施した回転による前記振幅成分またはパワー成分の変化量に応じて、前記置換された前記周波数領域信号の前記所定周波数の前記振幅成分またはパワー成分を補正する第2制御手段と、
前記第1制御手段により回転された位相成分と、前記第2制御手段により補正された振幅成分またはパワー成分と、を合成する合成手段と、
をさらに含む
請求項1に記載の信号処理装置。 - 前記第1制御手段は、前記目的音の存在しない周波数の前記位相成分を回転させる
請求項2に記載の信号処理装置。 - 前記第1制御手段は、前記位相成分の回転量を生成する回転量生成手段を含み、
前記第2制御手段は、前記回転量生成手段から提供された前記回転量に基づいて前記変化量を算出し、算出した前記変化量に応じて前記振幅成分またはパワー成分を補正する
請求項2または3に記載の信号処理装置。 - 前記周波数領域信号の振幅成分またはパワー成分を遅延させる振幅成分遅延手段、をさらに含み、
前記第2制御手段は、前記第1制御手段により回転された位相成分と前記周波数領域信号の振幅成分またはパワー成分とを合成した信号と、前記入力信号と、を比較することにより前記変化量を算出し、算出した前記変化量に応じて、前記振幅成分遅延手段により遅延した前記振幅成分またはパワー成分を補正する
請求項2または3に記載の信号処理装置。 - 前記変換手段は、前記入力信号を、互いに一部オーバーラップした複数フレームに分割する分割手段を含み、
前記第2制御手段は、さらに、フレームのオーバーラップ率に応じて、前記所定周波数の前記振幅成分またはパワー成分を補正する
請求項1乃至5のいずれかに記載の信号処理装置。 - 入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、
前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する
信号処理方法。 - 入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、
前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する、
処理をコンピュータに実行させる信号処理プログラムを格納する、コンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013528018A JP6119604B2 (ja) | 2011-08-11 | 2012-07-31 | 信号処理装置、信号処理方法、および信号処理プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011176121 | 2011-08-11 | ||
JP2011-176121 | 2011-08-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013021960A1 true WO2013021960A1 (ja) | 2013-02-14 |
Family
ID=47668467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2012/069935 WO2013021960A1 (ja) | 2011-08-11 | 2012-07-31 | 信号処理装置、信号処理方法、および信号処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6119604B2 (ja) |
WO (1) | WO2013021960A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021024471A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電気株式会社 | 雑音推定装置、移動物体音検出装置、雑音推定方法、移動物体音検出方法及び非一時的なコンピュータ可読媒体 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254499A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 帯域分割型雑音低減方法及び装置 |
JP2008076676A (ja) * | 2006-09-20 | 2008-04-03 | Fujitsu Ltd | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
JP2008257049A (ja) * | 2007-04-06 | 2008-10-23 | Yamaha Corp | 雑音抑圧装置およびプログラム |
JP2009020472A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音処理装置およびプログラム |
-
2012
- 2012-07-31 JP JP2013528018A patent/JP6119604B2/ja active Active
- 2012-07-31 WO PCT/JP2012/069935 patent/WO2013021960A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254499A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 帯域分割型雑音低減方法及び装置 |
JP2008076676A (ja) * | 2006-09-20 | 2008-04-03 | Fujitsu Ltd | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
JP2008257049A (ja) * | 2007-04-06 | 2008-10-23 | Yamaha Corp | 雑音抑圧装置およびプログラム |
JP2009020472A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音処理装置およびプログラム |
Non-Patent Citations (2)
Title |
---|
AKIHIKO SUGIYAMA: "Single-Channel Impact-Noise Suppression with no Auxiliary Information for its Detection, Applications of Signal", PROCESSING TO AUDIO AND ACOUSTICS, 2007 IEEE WORKSHOP, October 2007 (2007-10-01) * |
RYOJI MIYAHARA: "A Mechanical-Noise Suppressor for Digital Cameras using Phase Randomization and Amplitude Compensation", PROCEEDINGS OF THE 2011 IEICE GENERAL CONFERENCE AT-2-3, 28 February 2011 (2011-02-28) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021024471A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電気株式会社 | 雑音推定装置、移動物体音検出装置、雑音推定方法、移動物体音検出方法及び非一時的なコンピュータ可読媒体 |
JPWO2021024471A1 (ja) * | 2019-08-08 | 2021-02-11 | ||
JP7218811B2 (ja) | 2019-08-08 | 2023-02-07 | 日本電気株式会社 | 雑音推定装置、雑音推定方法及びプログラム |
US11996077B2 (en) | 2019-08-08 | 2024-05-28 | Nec Corporation | Noise estimation device, moving object sound detection device, noise estimation method, moving object sound detection method, and non-transitory computer-readable medium |
Also Published As
Publication number | Publication date |
---|---|
JPWO2013021960A1 (ja) | 2015-03-05 |
JP6119604B2 (ja) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6079236B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP6406258B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
WO2014136628A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6070953B2 (ja) | 信号処理装置、信号処理方法、及び記憶媒体 | |
JP6300031B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP6064600B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
WO2012070670A1 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
US20130077802A1 (en) | Signal processing method, information processing device and signal processing program | |
JP6406257B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2008216721A (ja) | 雑音抑圧の方法、装置、及びプログラム | |
WO2011055832A1 (ja) | 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム | |
JP6119604B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP5413575B2 (ja) | 雑音抑圧の方法、装置、及びプログラム | |
WO2011055834A1 (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
JP6182862B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP6011536B2 (ja) | 信号処理装置、信号処理方法、およびコンピュータ・プログラム | |
JP2011100029A (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
JP6662413B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12821747 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2013528018 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 12821747 Country of ref document: EP Kind code of ref document: A1 |