[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2005124739A1 - 雑音抑圧装置および雑音抑圧方法 - Google Patents

雑音抑圧装置および雑音抑圧方法 Download PDF

Info

Publication number
WO2005124739A1
WO2005124739A1 PCT/JP2005/009859 JP2005009859W WO2005124739A1 WO 2005124739 A1 WO2005124739 A1 WO 2005124739A1 JP 2005009859 W JP2005009859 W JP 2005009859W WO 2005124739 A1 WO2005124739 A1 WO 2005124739A1
Authority
WO
WIPO (PCT)
Prior art keywords
power spectrum
noise
band
pitch harmonic
voicedness
Prior art date
Application number
PCT/JP2005/009859
Other languages
English (en)
French (fr)
Inventor
Youhua Wang
Takuya Kawashima
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/629,381 priority Critical patent/US20080281589A1/en
Priority to EP05743170A priority patent/EP1768108A4/en
Priority to JP2006514681A priority patent/JPWO2005124739A1/ja
Publication of WO2005124739A1 publication Critical patent/WO2005124739A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present invention relates to a noise suppression device and a noise suppression method, and more particularly to a noise suppression device and a noise suppression method used in a voice communication device and a voice recognition device for suppressing background noise.
  • a low bit rate speech coding apparatus can provide high-quality speech communication for speech without background noise, but can provide low-quality speech for speech including background noise. Unpleasant distortion peculiar to the bit rate encoding may occur, thereby deteriorating sound quality.
  • ss method a spectral subtraction method
  • sin method a spectral subtraction method
  • the spectral characteristics of the estimated noise component are regarded as stationary, and the speech power spectrum is uniformly subtracted as a noise base.
  • the spectral characteristics of the noise components are not stationary, so that residual noise after noise-based subtraction, particularly residual noise between voice pitches, may cause unnatural distortion called so-called musical noise.
  • Patent Document 1 Japanese Patent No. 2714656
  • Patent Document 2 Japanese Patent Publication No. 10-513030
  • Non-Patent Document 1 "Suppression of acoustic noise in speech using spectral subtraction", Boll, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP—27, pp.113—120, 1979
  • the present invention has been made in view of the power, and an object of the present invention is to provide a noise suppression device and a noise suppression method capable of improving noise suppression accuracy while reducing voice distortion.
  • a noise suppression device of the present invention includes a suppression unit that suppresses the noise component from the speech power spectrum using detection results of a sound band and a noise band in the speech power spectrum including a noise component, and the speech power spectrum.
  • Spectral power Extraction means for extracting a pitch harmonic power spectrum
  • voicedness determination means for determining voicedness of the speech path vector based on the extracted pitch harmonic power spectrum
  • extracted pitch harmonic power spectrum Restoration means for restoring a vector, and a pitch harmonic power spectrum selected from the restored pitch harmonic power spectrum and the extracted pitch harmonic power spectrum in accordance with the result of the judgment by the voicedness judgment means.
  • correcting means for correcting the detection result.
  • a noise suppression method is a noise suppression method for suppressing the noise component from the speech power spectrum using detection results of a sound band and a noise band in the speech power spectrum including the noise component,
  • a noise suppression program is a noise suppression program that suppresses the noise component from the speech power spectrum using detection results of a sound band and a noise band in the speech power spectrum including a noise component.
  • FIG. 1 is a block diagram showing a configuration of a noise suppression device according to Embodiment 1 of the present invention.
  • FIG. 2A Diagram showing detection results of sound band and noise band
  • FIG. 2B is a diagram showing an extraction result of a pitch harmonic power spectrum.
  • FIG. 2C is a diagram showing a result of extraction of a peak of a pitch harmonic.
  • FIG. 2E A diagram showing a correction result of the detection result shown in FIG. 2A.
  • FIG. 3 is a block diagram showing a configuration of a noise suppression device according to Embodiment 2 of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a noise suppression device according to Embodiment 3 of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a noise suppression device according to Embodiment 4 of the present invention.
  • FIG. 6 is a flowchart illustrating an operation of the noise suppression apparatus according to Embodiment 4 of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a noise suppression device according to Embodiment 1 of the present invention.
  • the noise suppressing apparatus 100 includes a windowing section 101, an FFT (Fast Fourier Transform) section 102, a noise base estimating section 103, a band-based sound Z noise detecting section 104, and a pitch harmonic structure extracting section 105.
  • Voicedness judgment section 106 pitch frequency estimation section 107, pitch harmonic structure restoration section 108, voiced Z noise correction section 109 for each band, subtraction Z attenuation coefficient calculation section 110, multiplication section 111 and IFFT (Inverse Fast Fourier Transform) Part 112
  • Windowing section 101 divides an input audio signal including a noise component into frames in a predetermined time unit, applies a windowing process to the frame using a Hung window, and outputs the frame to FFT section 102. I do.
  • FFT section 102 performs FFT on a frame input from windowing section 101, that is, an audio signal divided into frame units, and converts the audio signal into a frequency domain. As a result, a speech power spectrum is obtained. Therefore, the audio signal of each frame is an audio spectrum having a predetermined frequency band.
  • the speech power spectrum in which the frame power is also generated in this manner is obtained by the noise-based estimator 103, the band-specific sound Z noise detector 104, the pitch harmonic structure extractor 105, the pitch frequency estimator 107, Output to calculation section 110 and multiplication section 111.
  • Noise-based estimating section 103 estimates a frequency amplitude spectrum of a signal containing only a noise component, that is, a noise base, based on the input speech power spectrum.
  • the estimated noise base is output to band-specific voiced Z noise detection section 104, pitch harmonic structure extraction section 105, voicedness determination section 106, pitch frequency estimation section 107, and subtraction Z attenuation coefficient calculation section 110.
  • noise-based estimating section 103 generates, for each frequency component of the frequency band of the audio power spectrum, the audio power spectrum generated from the latest frame from FFT section 102 and the audio power spectrum generated from the previous frame. Compare the voice spectrum with the estimated noise base. If the result of the comparison indicates that the difference between the two exceeds a preset threshold, it is determined that the latest frame contains an audio component, and the noise-based frame is determined. No estimation is performed. On the other hand, if the difference does not exceed the threshold value, it is determined that the latest frame contains an audio signal! / ⁇ , and the noise base is updated.
  • Band-based speech Z noise detection section 104 calculates a speech band and a noise band in the speech power spectrum based on the speech spectrum from FFT section 102 and the noise base from noise base estimation section 103. To detect. The detection result is output to banded sound Z noise correction section 109.
  • Pitch harmonic structure extracting section 105 extracts a voice harmonic spectrum, that is, a pitch harmonic structure, that is, a pitch harmonic spectrum, based on the speech spectrum from FFT section 102 and the noise base from noise base estimating section 103. I do.
  • the extracted pitch harmonic spectrum is output to voicedness judgment section 106 and pitch harmonic structure restoration section 108.
  • Voicedness determination section 106 determines the voicedness of the speech power spectrum based on the noise base from noise base estimation section 103 and the pitch harmonic power spectrum from pitch harmonic structure extraction section 105. The determination result is output to pitch frequency estimation section 107 and pitch harmonic structure restoration section 108.
  • Pitch frequency estimation section 107 estimates the pitch frequency of the speech power spectrum based on the speech power spectrum from FFT section 102 and the noise base from noise base estimation section 103. Also, as a result of the determination by the voicedness determination unit 106, if the voicedness of the speech power spectrum is equal to or lower than a predetermined level, pitch frequency estimation is avoided. The estimation result is output to pitch harmonic structure restoration section 108.
  • pitch harmonic structure restoring section 108 Based on the pitch harmonic pulse vector from pitch harmonic structure extracting section 105 and the estimation result from pitch frequency estimating section 107, pitch harmonic structure restoring section 108 generates a pitch harmonic structure, that is, a pitch harmonic. Repair wave power spectrum. Also, as a result of the determination by the voicedness determination unit 106, if the voicedness of the speech power spectrum is equal to or lower than a predetermined level, pitch harmonic pulse vector restoration is avoided. The restored pitch harmonic power spectrum is output to band-specific sound Z noise correcting section 109.
  • the band-specific sound Z noise correction unit 109 includes a pitch harmonic power spectrum restored by the pitch harmonic structure repairing unit 108 and a pitch harmonic power spectrum extracted by the pitch harmonic structure extracting unit 105. Is selected according to the result of the determination by the voicedness determination unit 106.
  • the detection result is corrected based on the pitch harmonic power spectrum. For example, as a result of the voicedness determination, when it is determined that the voicedness of the speech power spectrum is equal to or lower than a predetermined level, the extracted pitch harmonic power spectrum is selected. In this case, the detection result is corrected by combining the pitch harmonic power spectrum from the pitch harmonic structure extraction unit 105 and the detection result from the band-specific sound Z noise detection unit 104.
  • band-specific sound Z noise correcting section 109 combines the pitch harmonic power spectrum from pitch harmonic structure correcting section 108 with the detection result from band-specific sound Z noise detecting section 104, Modify the detection result.
  • the corrected detection result is output to subtraction Z attenuation coefficient calculation section 110.
  • the subtraction Z-attenuation coefficient calculation unit 110 is based on the speech spectrum from the FFT unit 102, the noise base from the noise base estimation unit 103, and the detection result from the band-specific sound Z noise correction unit 109. , Calculate the Z attenuation coefficient. The calculated subtraction Z attenuation coefficient is multiplied by
  • Multiplication section 111 multiplies the sound band and the noise band in the speech power spectrum from FFT section 102 by the subtraction Z attenuation coefficient from subtraction Z attenuation coefficient calculation section 110. As a result, a speech power spectrum in which noise components are suppressed can be obtained. The result of this multiplication is output to the single unit 112.
  • the combination of the subtraction Z attenuation coefficient calculation unit 110 and the multiplication unit 111 uses the detection results of the voiced band and the noise band in the speech power spectrum including the noise component V, and the speech power spectrum power also reduces the noise component.
  • a suppression unit for suppressing is configured.
  • the section 112 performs an IFFT on the speech spectrum obtained as a result of the multiplication from the multiplication section 111. As a result, a speech power spectrum speech signal in which noise components are suppressed is generated.
  • 2A to 2E are diagrams for explaining the operation of correcting the detection results of the sound band and the noise band.
  • Voice spectrum S (k) is, c represented with the following formula (1)
  • k indicates a number for specifying a frequency component of a frequency band of a speech power spectrum.
  • Re ⁇ D (k) ⁇ and Im ⁇ D (k) ⁇ are the sounds after FFT conversion, respectively.
  • Equation (1) uses the square root
  • noise-based estimating section 103 generates a noise base based on speech power spectrum S (k).
  • N (n-l, k) is the noise in the previous frame.
  • is the noise-based moving average coefficient
  • is the audio component
  • the band-based sound / noise detection unit 104 determines the speech spectrum S (k) based on the speech spectrum S (k) and the noise base N (n, k). k)
  • pitch harmonic structure extraction section 105 outputs speech power spectrum S
  • the pitch harmonic power spectrum H (k) is calculated by using the following equation (4).
  • H M (k) r F "c ' ⁇ 2 ⁇ 1 ⁇ k ⁇ HB / 2 ... (4)
  • voicedness determination section 106 generates noise base N (n, k) and pitch harmonic path.
  • the voicedness of the speech power spectrum S (k) is determined based on the tuttle H (k).
  • the wavenumber band (1 to: HP) is set as the target band for voicedness judgment. That is, HP is the upper limit frequency component in the determination target band.
  • the frequency band (1 to: HBZ2) is divided into low, middle, and high bands, and each band is used as a specific frequency band to determine voicing.
  • the frequency band (1 to HBZ2) may be divided into a low band and a high band, and each band may be used as a specific frequency band to determine voicedness.
  • the pitch harmonic power spectrum H (k) is extracted with high quality.
  • voicedness determination section 106 has a configuration for identifying whether the original voice is a consonant or a vowel based on the voicedness determination result for each band obtained by dividing the frequency band.
  • the consonants and vowels have different powers to decide whether to restore the pitch harmonic spectrum H (k).
  • the voicedness judgment of the specific frequency band is performed by using the following equation (5), and calculating the sum of the values of the parts corresponding to the specific frequency in the pitch harmonic spectrum H (k). And the noise base N
  • the calculation is performed by calculating the ratio between the power of the part corresponding to the specific frequency in (n, k) and the sum of the power. If the result of this determination is that the voicedness of the specific frequency band is higher than a predetermined level, pitch frequency estimation and pitch harmonic structure restoration described later are performed.
  • the band-specific sound Z noise correction unit 109 uses the extracted pitch harmonic spectrum H (k) to extract the speech spectrum.
  • the detection accuracy of the sound band and the noise band can be significantly improved.
  • Pitch frequency estimating section 107 uses equation (6) to calculate the characteristics of noise base N (n, k).
  • the restoration is performed in the following procedure when it is determined that the voiceability of a specific frequency band is higher than a predetermined level.
  • Extract peaks (pl-p5, p9-pl2).
  • the extraction of the pitch harmonic peak may be performed only for a specific frequency band.
  • the interval between the extracted peaks is calculated. When the calculated interval exceeds a predetermined threshold value (for example, 1.5 times the pitch frequency), as shown in FIG. 2D, the pitch harmonic power spectrum H (k) is missing, Peaks based on the estimated pitch frequency m.
  • a predetermined threshold value for example, 1.5 times the pitch frequency
  • the band-specific sound Z noise correction unit 109 detects the detection result S (k)
  • the portion that overlaps with the restored pitch harmonic power spectrum H (k) is referred to as the sound band.
  • the part that overlaps with the restored pitch harmonic power spectrum H (k) is regarded as the noise band.
  • the subtraction Z attenuation coefficient calculation unit 110 generates a sound band in the corrected detection result S (k).
  • is a constant and g is a predetermined constant greater than zero and less than 1.
  • Gc (k) ⁇ gc noise band k ⁇ ⁇ ⁇ ⁇ (8)
  • the detection result S (k) is
  • the noise suppression accuracy can be further improved.
  • FIG. 3 is a block diagram showing a configuration of a noise suppression device according to Embodiment 2 of the present invention. Since the noise suppression device described in the present embodiment has the same basic configuration as that described in Embodiment 1, the same or corresponding components have the same reference characters allotted. Detailed description is omitted.
  • the noise suppressing device 200 shown in FIG. 3 has a configuration in which a speech Z noise frame determining unit 201 is added to the components of the noise suppressing device 100 described in the first embodiment.
  • Voice Z noise frame determination section 201 generates a power noise in which the frame from which the voice power spectrum is obtained is a voice frame, based on the voice power spectrum from FFT section 102 and the noise base from noise base estimating section 103. It is determined whether the frame is a frame. The result of the determination is output to voicedness determination section 106 and voiced Z noise correction section 109 for each band.
  • voice Z noise frame determination section 201 the frame determination operation of voice Z noise frame determination section 201 will be described more specifically.
  • the speech Z noise frame determination unit 201 firstly uses the following equation (based on the speech power spectrum S (k) from the FFT unit 102 and the noise base N (n, k) from the noise base estimation unit 103:
  • One of the two ratios is the ratio SNR between the speech power and the noise power in the lower frequency band of the speech power spectrum S (k).
  • HL is the upper limit frequency component in the above low frequency range.
  • HF is the upper limit frequency component in the frequency band of the audio power spectrum S (k).
  • frame determination is performed using the following equation (11).
  • frame information SNF is generated.
  • Frame information SNF is subject to judgment Is information indicating whether the frame is a speech frame or a noise frame.
  • M is the number of hangover frames. Also, when R is less than or equal to ⁇
  • the result of the frame judgment is a speech frame.
  • the voicedness determination unit 106 When the frame to be determined is determined to be a speech frame, normal operation (the operation described in the first embodiment) is performed in voicedness determination section 106 and band-based voiced Z noise correction section 109. On the other hand, when the frame to be determined is determined to be a noise frame, the voicedness determination unit 106 forcibly forces the speech power spectrum S (
  • the band-specific sound Z noise correction unit 109 corrects the entire band as a noise band.
  • the voicing of the entire band of the audio power spectrum S (k) is equal to or less than the predetermined level.
  • the load on the correction unit can be reduced.
  • the ratio SNR of the power in the low band of audio power spectrum S (k) is
  • the power spectrum of a high-sound component can be emphasized, while the power spectrum of a low-correlation noise component can be reduced. As a result, the accuracy of frame determination can be improved.
  • FIG. 4 is a block diagram showing a configuration of a noise suppression device according to Embodiment 3 of the present invention. Note that the noise suppression device described in the present embodiment has the same basic configuration as the noise suppression device described in Embodiment 1, and the same or corresponding components have the same reference characters. And a detailed description thereof will be omitted.
  • Noise suppression device 300 shown in FIG. 4 has the same configuration as noise suppression device 100 described in the first embodiment.
  • the configuration is such that a subtraction Z attenuation coefficient averaging unit 301 is added to the components.
  • the subtraction Z attenuation coefficient averaging unit 301 averages the subtraction Z attenuation coefficient obtained as a result of the calculation by the subtraction Z attenuation coefficient calculation unit 110 in each of the time domain and the frequency domain.
  • the averaged subtraction Z attenuation coefficient is output to the multiplier ill.
  • the combination of the subtraction Z attenuation coefficient calculation unit 110, the subtraction Z attenuation coefficient average processing unit 301, and the multiplication unit 111 forms the sound band and the speech band in the speech spectrum including the noise component.
  • a suppression unit that suppresses a noise component from a speech power spectrum is configured.
  • the subtraction Z attenuation coefficient obtained by the calculation in the subtraction Z attenuation coefficient calculation section 110 is averaged in the time domain using the following equation (12). Become here,
  • the moving average coefficient that satisfies the relationship is the moving average coefficient that satisfies the relationship.
  • the subtracted Z attenuation coefficient is averaged in the frequency domain.
  • K — K is the number of frequency components as the averaging target range.
  • the subtraction / attenuation coefficient subjected to the time averaging process using Equation (12) is compared with the subtraction / attenuation coefficient subjected to the frequency averaging process using Equation (13).
  • the present embodiment since the time averaging process is performed on the subtracted Z attenuation coefficient used for noise suppression, the non-speech of the speech due to a rapid change in the subtracted Z attenuation coefficient on the time axis. It is possible to improve continuity and reduce speech distortion caused by fluctuation of residual noise.
  • the discontinuity of the attenuation on the frequency axis is reduced, and the noise attenuation is increased. Can also reduce audio distortion.
  • the subtraction Z attenuation coefficient averaging unit 301 described in the present embodiment can also be used in the noise suppression device 200 described in the second embodiment.
  • FIG. 5 is a block diagram showing a configuration of a noise suppression device according to Embodiment 4 of the present invention. Note that the noise suppression device described in the present embodiment has the same basic configuration as the noise suppression device described in Embodiment 1, and the same or corresponding components have the same reference characters. And a detailed description thereof will be omitted.
  • the noise suppressing device 400 shown in FIG. 5 has a configuration in which a deadlock prevention unit 401 is added to the components of the noise suppressing device 100 described in the first embodiment.
  • noise-based estimating section 103 in noise suppression apparatus 400 stops updating of the noise base when the level of the noise component changes abruptly, that is, the dead-end. Generate a lock state.
  • the deadlock prevention unit 401 has a counter.
  • the counter is provided in association with the frequency component in the frequency band of the audio power spectrum, and the frequency of the corresponding frequency component of the noise base estimated by the noise base estimating unit 103 is continuously higher than a predetermined value. Count the number of times.
  • the deadlock preventing unit 401 prevents the noise base estimating unit 103 from stopping the updating of the noise base and the so-called deadlock state based on the counted number.
  • step S 1000 the deadlock prevention unit 401 uses the speech power spectrum S (k)
  • the noise base estimating unit 103 performs normal noise base estimation (S1010). Then, in step S1020, the number count (k) counted by the counter provided in the deadlock prevention unit 401 is reset to zero. Then, the process returns to step S1000.
  • step S 1000 the speech power spectrum S (k)
  • step S1040 the deadlock prevention unit 401 compares the number count (k) with a predetermined threshold. As a result of the comparison, when the count count (k) is larger than the threshold (S1 040: YES), the deadlock prevention unit 401 determines the minimum value of the noise power spectrum in a predetermined band including the corresponding frequency component k as the noise base N. (n, k) as the updated value (S 1050)
  • step S the noise base N (n, k) is updated using the updated value (S1060).
  • step S1040 when the count count (k) is equal to or smaller than the threshold (S1040: NO), the process directly returns to step S1000.
  • the power in the voice power spectrum S (k) is equal to or more than the predetermined value for the predetermined number of consecutive times.
  • the noise base N (n, k) can be updated with the minimum value of the noise power spectrum in a predetermined band including the frequency component k, and as a result, speech section noise is reduced.
  • the deadlock state can be prevented regardless of the sound section.
  • the predetermined band is preferably provided between peaks in the pitch harmonic. As a result, the valley of the noise power spectrum can be detected, and the minimum value of the noise power spectrum serving as the updated value can be easily detected.
  • deadlock prevention section 401 described in the present embodiment can also be used in noise suppression apparatuses 200 and 300 described in Embodiments 2 and 3.
  • a computer may execute the noise suppression method as software. That is, a program for executing the noise suppression method described in the above embodiment is previously stored in, for example, a ROM (Read Only Memory) or the like.
  • the noise suppression method of the present invention can be executed by recording the program on a recording medium and operating the program by a CPU (Central Processor Unit).
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • an LSI depending on the difference in the degree of power integration as an LSI, it may be called an IC, a system LSI, a super LSI, or a general LSI.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. It is also possible to use an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the technology may be used to integrate the functional blocks. Biotechnology can be applied.
  • the noise suppression device and the noise suppression method of the present invention have an effect of improving noise suppression accuracy while reducing voice distortion, and can be applied to a voice communication device, a voice recognition device, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

 音声歪みを低減しつつ雑音抑圧精度を向上することができる雑音抑圧装置を開示する。この装置において、抑圧部は、雑音成分を含む音声パワスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、音声パワスペクトルから雑音成分を抑圧する。ピッチ調波構造抽出部(105)は、音声パワスペクトルからピッチ調波パワスペクトルを抽出する。有声性判定部(106)は、抽出されたピッチ調波パワスペクトルに基づいて、音声パワスペクトルの有声性を判定する。ピッチ調波構造修復部(108)は、抽出されたピッチ調波パワスペクトルを修復する。帯域別有音/雑音修正部(109)は、修復されたピッチ調波パワスペクトルおよび抽出されたピッチ調波パワスペクトルのうち、有声性判定部(106)による判定の結果に従って選択されるピッチ調波パワスペクトルに基づいて、検出結果を修正する。

Description

明 細 書
雑音抑圧装置および雑音抑圧方法
技術分野
[0001] 本発明は、雑音抑圧装置および雑音抑圧方法に関し、特に、音声通信装置や音 声認識装置に用いられ背景雑音を抑圧する雑音抑圧装置および雑音抑圧方法に 関する。
背景技術
[0002] 一般に、低ビットレート音声符号化装置は、背景雑音のない音声に対しては高品質 な音声での通話を提供することができるが、背景雑音が含まれた音声に対しては低 ビットレート符号ィ匕特有の耳障りな歪みが生じて音質劣化をもたらすことがある。
[0003] このような音質劣化に対処するために行われる雑音抑圧 Z音声強調技術としては
、例えばスペクトルサブトラクシヨン法 (以下「ss法」と言う)などが挙げられる。
[0004] SS法では、無音区間で雑音成分の性質を推定する。そして、雑音成分を含む音声 信号の短時間パヮスペクトル(以下「音声パヮスペクトル」と言う)から雑音成分の短時 間パヮスペクトルを減算することにより、または、その音声パヮスペクトルに減衰係数 を乗算することにより、雑音成分が抑圧された音声パヮスペクトルを生成する(例えば 、非特許文献 1参照)。
[0005] また、 SS法では、推定した雑音成分のスペクトル特性を定常的なものとみなし、ノィ ズベースとして一律に音声パヮスペクトル力 差し引く。ところが、実際には雑音成分 のスペクトル特性は定常的なものでないため、ノイズベース差し引き後の残留雑音、 特に音声ピッチ間の残留雑音により、いわゆるミュジカルノイズと呼ばれる不自然な 歪みを生じることがある。
[0006] そのミュジカルノイズを抑えるための従来の雑音抑圧方法としては、音声パヮ対雑 音パヮの比(SNR)に基づく減衰係数を用いて乗算を行う手法 (例えば、特許文献 1 および特許文献 2参照)などが提案されている。この方法によれば、相対的に音声の 大き 、帯域 (SNRが高 、帯域)と相対的に雑音の大き!/、帯域 (SNRが低 、帯域)とを 互いに区別して、異なる減衰係数を用いる。 特許文献 1:特許第 2714656号公報
特許文献 2 :特表平 10— 513030号公報
非特許文献 1: "Suppression of acoustic noise in speech using spectral subtraction", Boll, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP— 27, pp.113— 120, 1979
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、上記従来の雑音抑圧方法においては、 SNRを利用して音声帯域お よび雑音帯域の区別を行っているものの、特に雑音成分のスペクトル特性が非定常 である場合はその区別を高精度で行うことが容易ではない、すなわち、音声歪み低 減および雑音抑圧の精度には一定の限界があった。
[0008] 本発明は、力かる点に鑑みてなされたもので、音声歪みを低減しつつ雑音抑圧精 度を向上することができる雑音抑圧装置および雑音抑圧方法を提供することを目的 とする。
課題を解決するための手段
[0009] 本発明の雑音抑圧装置は、雑音成分を含む音声パヮスペクトルにおける有音帯域 および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を 抑圧する抑圧手段と、前記音声パヮスペクトル力 ピッチ調波パヮスペクトルを抽出 する抽出手段と、抽出されたピッチ調波パヮスペクトルに基づいて、前記音声パヮス ベクトルの有声性を判定する有声性判定手段と、抽出されたピッチ調波パヮスぺクト ルを修復する修復手段と、修復されたピッチ調波パヮスペクトルおよび抽出されたピ ツチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果に従って選択 されるピッチ調波パヮスペクトルに基づ 、て、前記検出結果を修正する修正手段と、 を有する構成を採る。
[0010] 本発明の雑音抑圧方法は、雑音成分を含む音声パヮスペクトルにおける有音帯域 および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を 抑圧する雑音抑圧方法であって、前記音声パヮスペクトル力 ピッチ調波パヮスぺク トルを抽出する抽出ステップと、抽出したピッチ調波パヮスペクトルに基づいて、前記 音声パヮスペクトルの有声性を判定する有声性判定ステップと、抽出したピッチ調波 パヮスペクトルを修復する修復ステップと、修復したピッチ調波パヮスペクトルおよび 抽出されたピッチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果 に従って選択されるピッチ調波パヮスペクトルに基づ 、て、前記検出結果を修正する 修正ステップと、を有するようにした。
[0011] 本発明の雑音抑圧プログラムは、雑音成分を含む音声パヮスペクトルにおける有音 帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成 分を抑圧する雑音抑圧プログラムであって、前記音声パヮスペクトル力 ピッチ調波 パヮスペクトルを抽出する抽出ステップと、抽出したピッチ調波パヮスペクトルに基づ いて、前記音声パヮスペクトルの有声性を判定する有声性判定ステップと、抽出した ピッチ調波パヮスペクトルを修復する修復ステップと、修復したピッチ調波パヮスぺク トルおよび抽出されたピッチ調波パヮスペクトルのうち、前記有声性判定手段による 判定の結果に従って選択されるピッチ調波パヮスペクトルに基づいて、前記検出結 果を修正する修正ステップと、をコンピュータに実現させるようにした。
発明の効果
[0012] 本発明によれば、音声歪みを低減しつつ雑音抑圧精度を向上することができる。
図面の簡単な説明
[0013] [図 1]本発明の実施の形態 1に係る雑音抑圧装置の構成を示すブロック図
[図 2A]有音帯域および雑音帯域の検出結果を示す図
[図 2B]ピッチ調波パヮスペクトルの抽出結果を示す図
[図 2C]ピッチ調波のピークの抽出結果を示す図
[図 2D]ピッチ調波パヮスペクトルの修復結果を示す図
[図 2E]図 2Aに示す検出結果の修正結果を示す図
[図 3]本発明の実施の形態 2に係る雑音抑圧装置の構成を示すブロック図
[図 4]本発明の実施の形態 3に係る雑音抑圧装置の構成を示すブロック図
[図 5]本発明の実施の形態 4に係る雑音抑圧装置の構成を示すブロック図
[図 6]本発明の実施の形態 4の雑音抑圧装置における動作を説明するフロー図 発明を実施するための最良の形態 [0014] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。
[0015] (実施の形態 1)
図 1は、本発明の実施の形態 1に係る雑音抑圧装置の構成を示すブロック図である 。本実施の形態の雑音抑圧装置 100は、窓掛け部 101、 FFT(Fast Fourier Transfo rm)部 102、ノイズベース推定部 103、帯域別有音 Z雑音検出部 104、ピッチ調波構 造抽出部 105、有声性判定部 106、ピッチ周波数推定部 107、ピッチ調波構造修復 部 108、帯域別有音 Z雑音修正部 109、減算 Z減衰係数計算部 110、乗算部 111 および IFFT (Inverse Fast Fourier Transform)部 112 する。
[0016] 窓掛け部 101は、雑音成分を含む入力音声信号が所定時間単位のフレーム単位 に分割し、このフレームに対してハユングウィンドウなどを利用した窓掛け処理を施し て FFT部 102に出力する。
[0017] FFT部 102は、窓掛け部 101から入力されたフレーム、つまりフレーム単位に分割 された音声信号に対して FFTを行って音声信号を周波数領域に変換する。これによ り、音声パヮスペクトルを取得する。よって、フレーム単位の音声信号は、所定の周波 数帯域を有する音声パヮスペクトルとなる。このようにしてフレーム力も生成された音 声パヮスペクトルは、ノイズベース推定部 103、帯域別有音 Z雑音検出部 104、ピッ チ調波構造抽出部 105、ピッチ周波数推定部 107、減算 Z減衰係数計算部 110お よび乗算部 111に出力される。
[0018] ノイズベース推定部 103は、入力された音声パヮスペクトルに基づいて、雑音成分 のみを含む信号の周波数振幅スペクトル、すなわちノイズベースを推定する。推定さ れたノイズベースは、帯域別有音 Z雑音検出部 104、ピッチ調波構造抽出部 105、 有声性判定部 106、ピッチ周波数推定部 107および減算 Z減衰係数計算部 110に 出力される。
[0019] また、ノイズベース推定部 103は、音声パヮスペクトルの周波数帯域の各周波数成 分において、 FFT部 102からの最新のフレームから生成された音声パヮスペクトルと 、その前のフレームから生成された音声パヮスペクトルにつ!/、て推定したノイズべ一 スと、を比較する。そして、比較の結果、両者のパヮの差が予め設定された閾値を超 過する場合は、最新フレームには音声成分が含まれていると判定し、ノイズベースの 推定を行わない。一方、その差が上記閾値を超過しない場合は、最新フレームには 音声信号が含まれて!/ヽな 、と判定し、ノイズベースの更新を行う。
[0020] 帯域別有音 Z雑音検出部 104は、 FFT部 102からの音声パヮスペクトルとノイズべ ース推定部 103からのノイズベースに基づいて、音声パヮスペクトルにおける有音帯 域および雑音帯域を検出する。検出結果は、帯域別有音 Z雑音修正部 109に出力 される。
[0021] ピッチ調波構造抽出部 105は、 FFT部 102からの音声パヮスペクトルおよびノイズ ベース推定部 103からのノイズベースに基づいて、音声パヮスペクトル力 ピッチ調 波構造つまりピッチ調波パヮスペクトルを抽出する。抽出されたピッチ調波パヮスぺク トルは、有声性判定部 106およびピッチ調波構造修復部 108に出力される。
[0022] 有声性判定部 106は、ノイズベース推定部 103からのノイズベースおよびピッチ調 波構造抽出部 105からのピッチ調波パヮスペクトルに基づいて、音声パヮスペクトル の有声性を判定する。判定結果は、ピッチ周波数推定部 107およびピッチ調波構造 修復部 108に出力される。
[0023] ピッチ周波数推定部 107は、 FFT部 102からの音声パヮスペクトルおよびノイズべ ース推定部 103からのノイズベースに基づいて、音声パヮスペクトルのピッチ周波数 を推定する。また、有声性判定部 106による判定の結果、音声パヮスペクトルの有声 性が所定レベル以下の場合はピッチ周波数推定を回避する。推定結果は、ピッチ調 波構造修復部 108に出力される。
[0024] ピッチ調波構造修復部 108は、ピッチ調波構造抽出部 105からのピッチ調波パヮス ベクトルおよびピッチ周波数推定部 107からの推定結果に基づ 、て、ピッチ調波構 造つまりピッチ調波パヮスペクトルを修復する。また、有声性判定部 106による判定 の結果、音声パヮスペクトルの有声性が所定レベル以下の場合はピッチ調波パヮス ベクトル修復を回避する。修復されたピッチ調波パヮスペクトルは、帯域別有音 Z雑 音修正部 109に出力される。
[0025] 帯域別有音 Z雑音修正部 109は、ピッチ調波構造修復部 108によって修復された ピッチ調波パヮスペクトルおよびピッチ調波構造抽出部 105によって抽出されたピッ チ調波パヮスペクトルのうち、有声性判定部 106による判定の結果に従って選択され るピッチ調波パヮスペクトルに基づいて、検出結果を修正する。例えば、有声性判定 の結果、音声パヮスペクトルの有声性が所定レベル以下であると判定された場合は、 抽出されたピッチ調波パヮスペクトルが選択される。この場合、ピッチ調波構造抽出 部 105からのピッチ調波パヮスペクトルと帯域別有音 Z雑音検出部 104からの検出 結果とを組み合わせることにより、検出結果の修正を行う。一方、音声パヮスペクトル の有声性が所定レベルより高 、と判定された場合は、修復されたピッチ調波パヮスぺ タトルが選択される。この場合、帯域別有音 Z雑音修正部 109は、ピッチ調波構造修 復部 108からのピッチ調波パヮスペクトルと帯域別有音 Z雑音検出部 104からの検 出結果とを組み合わせることにより、検出結果の修正を行う。修正された検出結果は 、減算 Z減衰係数計算部 110に出力される。
[0026] 減算 Z減衰係数計算部 110は、 FFT部 102からの音声パヮスペクトル、ノイズべ一 ス推定部 103からのノイズベースおよび帯域別有音 Z雑音修正部 109からの検出結 果に基づいて、減算 Z減衰係数を計算する。計算された減算 Z減衰係数は乗算部
111に出力される。
[0027] 乗算部 111は、 FFT部 102からの音声パヮスペクトルにおける有音帯域および雑 音帯域に対して、減算 Z減衰係数計算部 110からの減算 Z減衰係数を乗算する。こ れによって、雑音成分が抑圧された音声パヮスペクトルが得られる。この乗算結果は 、1 丁部112に出カされる。
[0028] すなわち、減算 Z減衰係数計算部 110および乗算部 111の組み合わせは、雑音 成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用 V、て、音声パヮスペクトル力も雑音成分を抑圧する抑圧部を構成する。
[0029] ?丁部112は、乗算部 111からの乗算結果である音声パヮスペクトルに対して、 I FFTを行う。これによつて、雑音成分が抑圧された音声パヮスペクトル力 音声信号 が生成される。
[0030] 以下、上記構成を有する雑音抑圧装置 100の動作について説明する。図 2A〜図 2Eは、有音帯域および雑音帯域の検出結果の修正動作を説明するための図である
[0031] まず、 FFT部 102では、音声パヮスペクトル S (k)を取得する。音声パヮスペクトル S (k)は、次の式(1)を用いて表される c
F
[数 1]
SF (k) = ^Re{DF {k)f + Im{DF {k)f \≤k≤HB/ 2 · · · ( !_ )
[0032] ここで、 kは、音声パヮスペクトルの周波数帯域の周波数成分を特定する番号を示 す。 HBは、 FFT変換長つまり高速フーリエ変換を行う対象のデータ数であり、例え ば HB = 512である。 Re{D (k) }および Im{D (k) }は、それぞれ FFT変換後の音
F F
声パヮスペクトル D (k)の実数部および虚数部を示す。なお、式(1)では平方根を用
F
いているが、平方根を用いなくとも S (k)を算出することは可能である。
F
[0033] そして、ノイズベース推定部 103では、音声パヮスペクトル S (k)に基づくノイズべ
F
ース N (n,k)の推定が、式(2)を用いて行われる。
B
[数 2]
N n,k) ( 2 )
Β
Figure imgf000009_0001
[0034] ここで、 ηはフレーム番号を示す。また、 N (n- l,k)は、前フレームにおけるノイズ
B
ベースの推定値である。 αはノイズベースの移動平均係数であり、 Θ は、音声成分
Β
および雑音成分を判別する閾値である。
[0035] そして、帯域別有音 Ζ雑音検出部 104では、図 2Αに示すように、音声パヮスぺクト ル S (k)およびノイズベース N (n,k)に基づいて、音声パヮスペクトル S (k)におけ
F B F
る有音帯域および雑音帯域を検出する。有音帯域および雑音帯域の検出結果 S (k
N
)は、次の式 (3)を用いた計算を行うことによって得られる。計算によって得られた差 がゼロより大きければ、音声成分を含む音声帯域と判定する。差がゼロ以下であれ ば、音声成分を含まない雑音帯域と判定する。ここで、 y は定数である。
[数 3]
Figure imgf000009_0002
[0036] そして、ピッチ調波構造抽出部 105では、図 2Bに示すように、音声パヮスペクトル S
(k)およびノイズベース N (n,k)に基づ!/、て、ピッチ調波パヮスペクトル H (k)を抽
F B M
出する。ピッチ調波パヮスペクトル H (k)は、次の式 (4)を用いた計算を行うことによ
M つて抽出される。ここで、 y は γ > y を満たす定数である。
[数 4]
iVk)J - Yl - NB (", k) SF (k) > Yl - NB (", k)
HM {k) = rF "ハ'ヮ 21 ≤ k ≤ HB / 2 . . . ( 4 )
[0037] そして、有声性判定部 106では、ノイズベース N (n,k)およびピッチ調波パヮスぺ
B
タトル H (k)に基づいて、音声パヮスペクトル S (k)の有声性を判定する。本実施の
M F
形態では、音声パヮスペクトル S (k)の周波数帯域(1〜: HBZ2)のうち、特定の周
F
波数帯域(1〜: HP)を有声性判定の対象帯域とする。すなわち、 HPは、判定対象帯 域内の上限の周波数成分である。
[0038] より好ましくは、周波数帯域(1〜: HBZ2)を低域、中域、高域に 3分割し、各帯域を 特定の周波数帯域として有声性判定を行う。あるいは、周波数帯域(1〜: HBZ2)を 低域、高域に 2分割し、各帯域を特定の周波数帯域として有声性判定を行うような構 成であっても良い。このように、周波数帯域を分割することによって得られた帯域ごと に有声性判定を行うことにより、ピッチ調波パヮスペクトル H (k)が高品質に抽出さ
M
れる帯域とそうでな 、帯域とでピッチ調波スペクトル H (k)の修復を行うか否力を分
M
けることができる。
[0039] なお、有声性判定部 106が、周波数帯域を分割することによって得られた帯域ごと の有声性判定結果に基づ!、て、元の音声が子音か母音かを識別する構成を有する 場合、子音と母音とでピッチ調波スペクトル H (k)の修復を行うか否力を分けること
M
ができる。
[0040] 特定の周波数帯域の有声性判定は、次の式(5)を用いて、ピッチ調波パヮスぺクト ル H (k)の中の、特定の周波数に対応する部分のパヮの総和値と、ノイズベース N
M B
(n,k)の中の、特定の周波数に対応する部分のパヮの総和値と、の比を計算すること によって行われる。この判定の結果、特定の周波数帯域の有声性が所定レベルより も高 、場合は、後述のピッチ周波数推定およびピッチ調波構造修復が行われる。
[数 5]
( 5 )
Figure imgf000010_0001
[0041] 一方、特定の周波数帯域の有声性が所定レベル以下の場合は、ピッチ周波数推 定およびピッチ調波構造修復は行われない。この場合、帯域別有音 Z雑音修正部 1 09では、抽出されたピッチ調波パヮスペクトル H (k)に基づいて、音声パヮスぺクト
M
ル S (k)における有音帯域および雑音帯域の検出結果 S (k)のうち特定の周波数
F N
帯域に対応する部分を修正する。換言すれば、検出結果 S (k)のうち特定の周波数
N
帯域に対応する部分に対する、修復されたピッチ調波パヮスペクトル H (k)に基づく
M
修正を回避する。このため、より高精度なピッチ調波パヮスペクトル H (k)を選択的
M
に用いることができ、有音帯域および雑音帯域の検出精度を著しく向上することがで きる。
[0042] なお、以下の説明では、特定の周波数帯域の有声性が所定レベルよりも高いと判 定された場合を想定する。
[0043] ピッチ周波数推定部 107では、式(6)を用いて、ノイズベース N (n,k)の中の、特
B
定の周波数帯域に対応する部分を j8倍したものを、音声パヮスペクトル S (k)
F の中の
、特定の周波数帯域に対応する部分から減算する。続いて、式 (7)を用いて、減算 結果 Q (k)の自己相関関数 R (m)を計算する。そして、自己相関関数 R (m)の最
F P P
大値に対応する mを、ピッチ周波数とする。
[数 6]
QF(k) = SF(k)-fi-NB(m,k) \≤k≤HM … (6)
[数 7]
HM-m
RP(m)= ^QF(k)-QF(k + m) \≤m≤PM ··· (7) [0044] そして、ピッチ調波構造修復部 108では、ピッチ調波パヮスペクトル H (k)の中の、
M
特定の周波数帯域に対応する部分を修復する。より具体的には、修復は、特定の周 波数帯域の有声性が所定レベルよりも高いと判定された場合に、次のような手順で 行われる。
[0045] 第 1に、図 2Cに示すように、ピッチ調波パヮスペクトル H (k)におけるピッチ調波の
M
ピーク (pl〜p5、 p9〜pl2)を抽出する。なお、ピッチ調波のピークの抽出は、特定 の周波数帯域のみに対して行われても良い。 [0046] 第 2に、抽出されたピークの間隔を計算する。計算された間隔が、所定の閾値 (例 えば、ピッチ周波数の 1. 5倍)を超過した場合、図 2Dに示すように、ピッチ調波パヮ スペクトル H (k)にお 、て欠落して 、るピークを、推定されたピッチ周波数 mに基づ
M
V、て挿入する。このようにしてピッチ調波パヮスペクトル H (k)が修復される。
M
[0047] そして、帯域別有音 Z雑音修正部 109では、図 2Eに示すように、検出結果 S (k)
N
にお 、て、修復後のピッチ調波パヮスペクトル H (k)と重複のある部分を有音帯域と
M
し、修復後のピッチ調波パヮスペクトル H (k)と重複して ヽな ヽ部分を雑音帯域とす
M
る。このようにして検出結果 S (k)の修正を行う。
N
[0048] そして、減算 Z減衰係数計算部 110では、修正された検出結果 S (k)内の有音帯
N
域および雑音帯域のそれぞれに対して、音声パヮスペクトル S (k)およびノイズべ
F 一 ス N (n,k)に基づいて減算 Z減衰係数 G (k)を計算する。計算には次の式 (8)を用
B C
いる。ここで、 μは定数であり、また、 gは、ゼロより大きく 1より小さい所定の定数であ
C
る。
[数 8]
Gc (k) = { gc 雑音帯域 k≤赚 · · · ( 8 )
[0049] このように、本実施の形態によれば、有音帯域および雑音帯域の検出結果 S (k)
N
をピッチ調波パヮスペクトル H (k)に基づいて修正するため、雑音成分のスペクトル
M
特性が非定常の場合でも、有音帯域および雑音帯域の検出を高精度で行うことがで きる。この結果、有音帯域および雑音帯域のそれぞれに対して、減衰度合いの相対 的に弱い減算処理と減衰度合いが相対的に強い減衰処理とを行うことができる。これ により、減衰量を大きくしても、音声歪みを低減しつつ雑音抑圧精度を向上すること ができる。さらに、本実施の形態によれば、検出結果 S (k)を、抽出されたピッチ調
N
波パヮスペクトル H (k)および修復されたピッチ調波パヮスペクトル H (k)のうち、音
M M
声パヮスペクトル S (k)の有声性の判定結果に従って選択されるピッチ調波パヮスぺ
F
タトルに基づいて修正するため、検出結果 S (k)の精度をさらに向上することができ
N
、雑音抑圧精度をさらに向上することができる。
[0050] (実施の形態 2) 図 3は、本発明の実施の形態 2に係る雑音抑圧装置の構成を示すブロック図である 。なお、本実施の形態で説明する雑音抑圧装置は、実施の形態 1で説明したものと 同様の基本的構成を有するため、同一のまたは対応する構成要素には同一の参照 符号を付し、その詳細な説明を省略する。
[0051] 図 3に示す雑音抑圧装置 200は、実施の形態 1で説明した雑音抑圧装置 100の構 成要素に音声 Z雑音フレーム判定部 201を加えた構成となっている。
[0052] 音声 Z雑音フレーム判定部 201は、 FFT部 102からの音声パヮスペクトルおよびノ ィズベース推定部 103からのノイズベースに基づいて、音声パヮスペクトルが取得さ れたフレームが音声フレームである力雑音フレームであるかを判定する。判定の結果 は、有声性判定部 106および帯域別有音 Z雑音修正部 109に出力される。
[0053] 以下、音声 Z雑音フレーム判定部 201のフレーム判定動作について、より具体的 に説明する。
[0054] 音声 Z雑音フレーム判定部 201では、まず、 FFT部 102からの音声パヮスペクトル S (k)およびノイズベース推定部 103からのノイズベース N (n,k)に基づき、次の式(
F B
9)および式(10)を用いて、二つの比を算出する。二つの比のうちの一つは、音声パ ヮスペクトル S (k)の周波数帯域のうち低域での、音声パヮと雑音パヮとの比 SNR
F し であり、もう一つは、音声パヮスペクトル S (k)の周波数帯域の全域での、音声パヮと
F
雑音パヮとの比 SNRである。ここで、 HLは、上記低域の中の上限周波数成分であ
F
り、 HFは、音声パヮスペクトル S (k)の周波数帯域の中の上限周波数成分である。
F
[数 9]
Figure imgf000013_0001
[数 10]
Figure imgf000013_0002
そして、算出された二つの比 SNR、 SNRの相関値 R ( = SNR - SNR )を計算
L F LF L F
する。そして、次の式(11)を用いてフレーム判定を行う。式(11)を用いたフレーム判 定の結果として、フレーム情報 SNFが生成される。フレーム情報 SNFは、判定対象 のフレームが音声フレームであるか雑音フレームであるかを示す情報である。式(11 )にお 、て、 Mはハングオーバーフレーム数である。また、 R が Θ 以下である状態
LF SN
が Mフレーム連続しな力つた場合も、フレーム判定の結果は音声フレームとなる。
[数 11]
SNF J1 (音声フレーム) R > ew
" [0 (雑音フレーム) R ≤0 が Mフレーム連続した場合
[0056] 判定対象のフレームが音声フレームと判定された場合、有声性判定部 106および 帯域別有音 Z雑音修正部 109では通常の動作 (実施の形態 1で説明した動作)が行 われる。一方、判定対象のフレームが雑音フレームと判定された場合、有声性判定 部 106では、強制的に、判定対象のフレームから生成された音声パヮスペクトル S (
F
k)の周波数帯域のうち全帯域の有声性が所定レベル以下であると判定する。この結 果、帯域別有音 Z雑音修正部 109では、全帯域を雑音帯域として修正する。
[0057] このように、本実施の形態によれば、判定対象のフレームが雑音フレームであると 判定された場合、音声パヮスペクトル S (k)の全帯域の有声性が所定レベル以下で
F
あると判定されるため、雑音フレームに対する不要な検出結果 S (k)修正処理を省く
N
ことができ、修正部の負荷を軽減することができる。
[0058] また、本実施の形態によれば、音声パヮスペクトル S (k)の低域でのパヮの比 SNR
F
と、音声パヮスペクトル S (k)の全域でのパヮの比 SNRとの相関値 R を計算し、こ
F F LF
の相関値 R に基づいてフレーム判定を行うため、低域と全域との間での相関性が
LF
高い音声成分のパヮスペクトルを強調することができる一方、相関性が低い雑音成分 のパヮスペクトルを低減することができる。この結果、フレーム判定の精度を向上する ことができる。
[0059] (実施の形態 3)
図 4は、本発明の実施の形態 3に係る雑音抑圧装置の構成を示すブロック図である 。なお、本実施の形態で説明する雑音抑圧装置は、実施の形態 1で説明した雑音抑 圧装置と同様の基本的構成を有するため、同一のまたは対応する構成要素には同 一の参照符号を付し、その詳細な説明を省略する。
[0060] 図 4に示す雑音抑圧装置 300は、実施の形態 1で説明した雑音抑圧装置 100の構 成要素に減算 Z減衰係数平均処理部 301を加えた構成となっている。
[0061] 減算 Z減衰係数平均処理部 301は、減算 Z減衰係数計算部 110による計算の結 果として得られた減算 Z減衰係数を、時間領域および周波数領域のそれぞれにお いて平均化する。平均化された減算 Z減衰係数は、乗算部 illに出力される。
[0062] すなわち、本実施の形態では、減算 Z減衰係数計算部 110、減算 Z減衰係数平 均処理部 301および乗算部 111の組み合わせが、雑音成分を含む音声パヮスぺクト ルにおける有音帯域および雑音帯域の検出結果を用いて、音声パヮスペクトルから 雑音成分を抑圧する抑圧部を構成する。
[0063] 以下、減算 Z減衰係数平均処理部 301での係数平均処理について、より具体的に 説明する。
[0064] まず、減算 Z減衰係数平均処理部 301では、減算 Z減衰係数計算部 110での計 算によって得られた減算 Z減衰係数を、次の式(12)を用いて時間領域において平 均化する。ここで、
Fおよび αしは、 α F >α の
し 関係を満たす移動平均係数である。
[数 12]
, k) + aF -Gc(k) Gc(k) > GT(n -l,k) j 删 ... (1 2) T η'
Figure imgf000015_0001
+ aL -Gc(k) Gc(k)≤GT(n -l,k)
[0065] また、下記の式(13)を用いて、減算 Z減衰係数を周波数領域において平均化す る。ここで、 K — Kは、平均化対象範囲としての周波数成分の数である。
H L
[数 13]
GF(k) = - ~~― θτ(η,ί) \≤k≤HBl2 … (1 3)
[0066] そして、式(12)を用いて時間平均処理を施された減算 Ζ減衰係数と、式(13)を用 いて周波数平均処理を施された減算 Ζ減衰係数と、を比較し、これらの大小関係に 従って、乗算部 111で使用する減算 Ζ減衰係数を選択する。例えば、次の式(14) に示すように、時間平均処理を施された減算 Ζ減衰係数が周波数平均処理を施さ れた減算 Ζ減衰係数よりも大き 、場合は、時間平均処理を施された減算 Ζ減衰係数 を選択し、そうでな!/ヽ場合は周波数平均処理を施された減算 Ζ減衰係数を選択する Gc {k) = ^k) G k) > G_F ik) l≤ k≤ HB / 2 … (1 4 )
GF (k) GT (n,k)≤GF (k)
[0067] このように、本実施の形態によれば、雑音抑圧に用いる減算 Z減衰係数に対して 時間平均処理を行うため、時間軸上での減算 Z減衰係数の急激な変化による音声 の非連続性を改善し、残留雑音の変動に伴う音声歪みを低減することができる。
[0068] また、本実施の形態によれば、減算 Z減衰係数に対して周波数平均処理を行うた め、周波数軸上での減衰量の不連続性を低減し、雑音減衰量を増大しても音声歪 みを低減することができる。
[0069] なお、本実施の形態で説明した減算 Z減衰係数平均処理部 301は、実施の形態 2 で説明した雑音抑圧装置 200において使用することもできる。
[0070] (実施の形態 4)
図 5は、本発明の実施の形態 4に係る雑音抑圧装置の構成を示すブロック図である 。なお、本実施の形態で説明する雑音抑圧装置は、実施の形態 1で説明した雑音抑 圧装置と同様の基本的構成を有するため、同一のまたは対応する構成要素には同 一の参照符号を付し、その詳細な説明を省略する。
[0071] 図 5に示す雑音抑圧装置 400は、実施の形態 1で説明した雑音抑圧装置 100の構 成要素にデッドロック防止部 401をカ卩えた構成となっている。
[0072] 雑音抑圧装置 400におけるノイズベース推定部 103は、実施の形態 1で説明した 動作を実行するほか、雑音成分のレベルが急激に変化した場合に、ノイズベースの 更新を停止する、つまりデッドロック状態を発生する。
[0073] デッドロック防止部 401は、カウンタを有する。カウンタは、音声パヮスペクトルの周 波数帯域内の周波数成分に対応づけて設けられ、且つ、ノイズベース推定部 103に より推定されたノイズベースのうち対応する周波数成分のパヮが連続で所定値以上と なる回数を計数する。デッドロック防止部 401は、計数された回数に基づいて、ノイズ ベース推定部 103のノイズベース更新停止、 、わゆるデッドロック状態を防止する。
[0074] 以下、雑音抑圧装置 400におけるデッドロック状態の防止動作について、図 6を用 いて、より具体的に説明する。 [0075] まず、ステップ S 1000では、デッドロック防止部 401で、音声パヮスペクトル S (k)
F
がノイズベース N (n,k)の Θ 倍以下である力否かを判定する。判定の結果、音声パ
B B
ヮスペクトル S (k)がノイズベース N (n,k)の Θ 倍以下の場合(S1000 :YES)、ノィ
F B B
ズベース推定部 103では通常のノイズベース推定が行われる(S1010)。そして、ス テツプ S1020では、デッドロック防止部 401に設けられたカウンタで計数された回数 c ount(k)をゼロにリセットする。そして、ステップ S 1000に戻る。
[0076] また、ステップ S 1000での判定の結果、音声パヮスペクトル S (k)力 ィズベース N
F
(n,k)の Θ 倍より大きい場合(S 1000 : NO)、カウンタは回数 count(k)をカウントアツ
B B
プする(S1030)。そして、ステップ S1040では、デッドロック防止部 401は回数 count (k)を所定の閾値と比較する。比較の結果、回数 count(k)が閾値よりも大きい場合 (S1 040 : YES)、デッドロック防止部 401は、対応する周波数成分 kが含まれる所定帯域 における雑音パヮスペクトルの最小値をノイズベース N (n,k)の更新値とし(S 1050)
B
、この更新値を用いてノイズベース N (n,k)を更新する(S1060)。そして、ステップ S
B
1000に戻る。また、ステップ S 1040での比較の結果、回数 count(k)が閾値以下の場 合(S 1040 : NO)は、直接、ステップ S 1000に戻る。
[0077] このように、音声パヮスペクトル S (k)におけるパヮが所定回数連続で所定値以上
F
となったとき、周波数成分 kが含まれる所定帯域における雑音パヮスペクトルのパヮの 最小値でノイズベース N (n,k)を更新することができ、これによつて、音声区間力雑
B
音区間かにかかわらずデッドロック状態を防止することができる。なお、上記所定帯 域はピッチ調波におけるピークの間に設けられることが好ましい。これによつて、雑音 パヮスペクトルの谷部を検出することができ、更新値となる雑音パヮスペクトルの最小 値を容易に検出することができる。
[0078] なお、本実施の形態で説明したデッドロック防止部 401は、実施の形態 2、 3で説明 した雑音抑圧装置 200、 300にお 、て使用することもできる。
[0079] また、本発明は様々な実施の形態を採ることが可能であり、実施の形態 1〜4で説 明したもののみに限定されない。例えば、上記の雑音抑圧方法をソフトウェアとしてコ ンピュータに実行させるようにしても良い。すなわち、上記の実施の形態で説明した 雑音抑圧方法を実行するプログラムを予め例えば ROM (Read Only Memory)等の 記録媒体に記録しておき、そのプログラムを CPU (Central Processor Unit)によって 動作させることで、本発明の雑音抑圧方法を実行することができる。
[0080] なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全 てを含むように 1チップィ匕されても良い。
[0081] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0082] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギュラブノレ ·プロセッサーを利用しても良 、。
[0083] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてありえる。
[0084] 本明細書は、 2004年 6月 18日出願の特願 2004— 181454に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0085] 本発明の雑音抑圧装置および雑音抑圧方法は、音声歪みを低減しつつ雑音抑圧 精度を向上する効果を有し、音声通信装置や音声認識装置等に適用することができ る。

Claims

請求の範囲
[1] 雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果 を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する抑圧手段と、 前記音声パヮスペクトル力 ピッチ調波パヮスペクトルを抽出する抽出手段と、 抽出されたピッチ調波パヮスペクトルに基づいて、前記音声パヮスペクトルの有声 性を判定する有声性判定手段と、
抽出されたピッチ調波パヮスペクトルを修復する修復手段と、
修復されたピッチ調波パヮスペクトルおよび抽出されたピッチ調波パヮスペクトルの うち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮス ベクトルに基づいて、前記検出結果を修正する修正手段と、
を有する雑音抑圧装置。
[2] 前記音声パヮスペクトルは、所定の周波数帯域を有し、
前記有声性判定手段は、
前記所定の周波数帯域のうち特定帯域の有声性を判定し、
前記修正手段は、
前記有声性判定手段による判定の結果、前記特定帯域の有声性が前記所定レべ ル以上の場合、前記検出結果のうち前記特定帯域に対応する部分を、修復されたピ ツチ調波パヮスペクトルに基づ 、て修正する一方、前記特定帯域の有声性が前記所 定レベル以下の場合、前記部分を、抽出されたピッチ調波パヮスペクトルに基づいて 修正する、
請求の範囲 1記載の雑音抑圧装置。
[3] 前記音声パヮスペクトル力 ノイズベースを推定するノイズベース推定手段をさらに 有し、
前記有声性判定手段は、
抽出されたピッチ調波パヮスペクトルのうち前記特定帯域に対応する部分のパヮの 総和値と推定されたノイズベースのうち前記特定帯域に対応する部分のパヮの総和 値との比に基づいて、前記特定帯域の有声性の判定を行う、
請求の範囲 2記載の雑音抑圧装置。
[4] 前記音声パヮスペクトルは、入力されたフレームから取得され、
前記フレームが音声フレームであるか雑音フレームであるかを判定するフレーム判 定手段をさらに有し、
前記有声性判定手段は、
前記フレーム判定手段による判定の結果、前記フレームが雑音フレームであると判 定された場合、前記所定の周波数帯域のうち全帯域の有声性が前記所定レベル以 下であると判定する、
請求の範囲 2記載の雑音抑圧装置。
[5] 前記抑圧手段は、
前記検出結果力 得られる係数を時間領域において平均化する時間平均処理手 段と、
平均化された前記係数を前記音声パヮスペクトルに乗算する乗算手段と、 を有する請求の範囲 2記載の雑音抑圧装置。
[6] 前記抑圧手段は、
前記検出結果力 得られる係数を周波数領域において平均化する周波数平均処 理手段と、
平均化された前記係数を前記音声パヮスペクトルに乗算する乗算手段と、 を有する請求の範囲 2記載の雑音抑圧装置。
[7] ノイズベースの更新を停止する更新停止手段と、
前記音声パヮスペクトルのうち、前記所定の周波数帯域内の周波数成分のパヮが 所定回数連続で所定値以上となったときに、前記更新停止手段のノイズベース更新 停止を防止する防止手段と、
を有する請求の範囲 2記載の雑音抑圧装置。
[8] 雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果 を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する雑音抑圧方法であ つて、
前記音声パヮスペクトル力 ピッチ調波パヮスペクトルを抽出する抽出ステップと、 抽出したピッチ調波パヮスペクトルに基づ!/、て、前記音声パヮスペクトルの有声性 を判定する有声性判定ステップと、
抽出したピッチ調波パヮスペクトルを修復する修復ステップと、
修復したピッチ調波パヮスペクトルおよび抽出されたピッチ調波パヮスペクトルのう ち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスぺ タトルに基づ 、て、前記検出結果を修正する修正ステップと、
を有することを特徴とする雑音抑圧方法。
雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果 を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する雑音抑圧プログラム であって、
前記音声パヮスペクトル力 ピッチ調波パヮスペクトルを抽出する抽出ステップと、 抽出したピッチ調波パヮスペクトルに基づ!/、て、前記音声パヮスペクトルの有声性 を判定する有声性判定ステップと、
抽出したピッチ調波パヮスペクトルを修復する修復ステップと、
修復したピッチ調波パヮスペクトルおよび抽出されたピッチ調波パヮスペクトルのう ち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスぺ タトルに基づ 、て、前記検出結果を修正する修正ステップと、
をコンピュータに実現させるための雑音抑圧プログラム。
PCT/JP2005/009859 2004-06-18 2005-05-30 雑音抑圧装置および雑音抑圧方法 WO2005124739A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/629,381 US20080281589A1 (en) 2004-06-18 2005-05-30 Noise Suppression Device and Noise Suppression Method
EP05743170A EP1768108A4 (en) 2004-06-18 2005-05-30 NOISE SUPPRESSION DEVICE AND NOISE SUPPRESSION METHOD
JP2006514681A JPWO2005124739A1 (ja) 2004-06-18 2005-05-30 雑音抑圧装置および雑音抑圧方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-181454 2004-06-18
JP2004181454 2004-06-18

Publications (1)

Publication Number Publication Date
WO2005124739A1 true WO2005124739A1 (ja) 2005-12-29

Family

ID=35509948

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/009859 WO2005124739A1 (ja) 2004-06-18 2005-05-30 雑音抑圧装置および雑音抑圧方法

Country Status (5)

Country Link
US (1) US20080281589A1 (ja)
EP (1) EP1768108A4 (ja)
JP (1) JPWO2005124739A1 (ja)
CN (1) CN1969320A (ja)
WO (1) WO2005124739A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008116686A (ja) * 2006-11-06 2008-05-22 Nec Engineering Ltd 雑音抑圧装置
JP2010217552A (ja) * 2009-03-17 2010-09-30 Yamaha Corp 音処理装置およびプログラム
WO2012038998A1 (ja) * 2010-09-21 2012-03-29 三菱電機株式会社 雑音抑圧装置
JP2019060942A (ja) * 2017-09-25 2019-04-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
EP2058803B1 (en) * 2007-10-29 2010-01-20 Harman/Becker Automotive Systems GmbH Partial speech reconstruction
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
WO2010113220A1 (ja) * 2009-04-02 2010-10-07 三菱電機株式会社 雑音抑圧装置
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
CN103620113B (zh) * 2011-04-28 2015-12-23 Abb技术有限公司 从片材的扫描测量确定cd和md的变化
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9865277B2 (en) * 2013-07-10 2018-01-09 Nuance Communications, Inc. Methods and apparatus for dynamic low frequency noise suppression
CN104778949B (zh) * 2014-01-09 2018-08-31 华硕电脑股份有限公司 音频处理方法及音频处理装置
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
US9734844B2 (en) * 2015-11-23 2017-08-15 Adobe Systems Incorporated Irregularity detection in music
CN106998214A (zh) * 2017-04-05 2017-08-01 深圳天珑无线科技有限公司 一种谐波处理方法及装置
CN109862463A (zh) * 2018-12-26 2019-06-07 广东思派康电子科技有限公司 耳机语音回放方法、耳机及其计算机可读存储介质
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
JPH09311698A (ja) * 1996-05-21 1997-12-02 Oki Electric Ind Co Ltd 背景雑音消去装置
JP2001249698A (ja) * 2000-03-06 2001-09-14 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ取得方法、音声復号方法及び装置
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2003280696A (ja) * 2002-03-19 2003-10-02 Matsushita Electric Ind Co Ltd 音声強調装置及び音声強調方法
JP2004020679A (ja) * 2002-06-13 2004-01-22 Matsushita Electric Ind Co Ltd 雑音抑圧装置および雑音抑圧方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
AU2001241475A1 (en) * 2000-02-11 2001-08-20 Comsat Corporation Background noise reduction in sinusoidal based speech coding systems
AU2002241476A1 (en) * 2000-11-22 2002-07-24 Defense Group Inc. Noise filtering utilizing non-gaussian signal statistics
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
JPH09311698A (ja) * 1996-05-21 1997-12-02 Oki Electric Ind Co Ltd 背景雑音消去装置
JP2001249698A (ja) * 2000-03-06 2001-09-14 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ取得方法、音声復号方法及び装置
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2003280696A (ja) * 2002-03-19 2003-10-02 Matsushita Electric Ind Co Ltd 音声強調装置及び音声強調方法
JP2004020679A (ja) * 2002-06-13 2004-01-22 Matsushita Electric Ind Co Ltd 雑音抑圧装置および雑音抑圧方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PATEL N.V. ET AL: "Audio characterization for video indexing", PROC. OF SPIE, vol. 2670, 1996, pages 373 - 384, XP000950031 *
See also references of EP1768108A4 *
WANG Y. ET AL: "Comb Filterinhg o Mochiita Onsei to Zatsuon no Bunri no Kento", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2002 NEN SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHU-I-, 18 March 2002 (2002-03-18), pages 609 - 610, XP002995868 *
WANG Y. ET AL: "Pitch Choka Kozo no Shufuku o Mochiita Onsei Kyochoho no Kento", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2001 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU-I-, 2 October 2001 (2001-10-02), pages 603 - 604, XP002995869 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008116686A (ja) * 2006-11-06 2008-05-22 Nec Engineering Ltd 雑音抑圧装置
JP4757775B2 (ja) * 2006-11-06 2011-08-24 Necエンジニアリング株式会社 雑音抑圧装置
JP2010217552A (ja) * 2009-03-17 2010-09-30 Yamaha Corp 音処理装置およびプログラム
WO2012038998A1 (ja) * 2010-09-21 2012-03-29 三菱電機株式会社 雑音抑圧装置
JP5183828B2 (ja) * 2010-09-21 2013-04-17 三菱電機株式会社 雑音抑圧装置
US8762139B2 (en) 2010-09-21 2014-06-24 Mitsubishi Electric Corporation Noise suppression device
JP2019060942A (ja) * 2017-09-25 2019-04-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US11069373B2 (en) 2017-09-25 2021-07-20 Fujitsu Limited Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program

Also Published As

Publication number Publication date
CN1969320A (zh) 2007-05-23
JPWO2005124739A1 (ja) 2008-04-17
EP1768108A1 (en) 2007-03-28
EP1768108A4 (en) 2008-03-19
US20080281589A1 (en) 2008-11-13

Similar Documents

Publication Publication Date Title
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP3574123B2 (ja) 雑音抑圧装置
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
US6415253B1 (en) Method and apparatus for enhancing noise-corrupted speech
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
JP3960834B2 (ja) 音声強調装置及び音声強調方法
WO2006006366A1 (ja) ピッチ周波数推定装置およびピッチ周波数推定方法
US20020128830A1 (en) Method and apparatus for suppressing noise components contained in speech signal
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
US11183172B2 (en) Detection of fricatives in speech signals
JP4173525B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP4445460B2 (ja) 音声処理装置及び音声処理方法
JP5131149B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP2006126859A5 (ja)
JP3761497B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
Islam et al. Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation
JP4098271B2 (ja) 雑音抑圧装置
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
BRPI0911932B1 (pt) Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006514681

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11629381

Country of ref document: US

Ref document number: 2005743170

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200580020128.3

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 2005743170

Country of ref document: EP