KR101647059B1 - 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 - Google Patents
독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 Download PDFInfo
- Publication number
- KR101647059B1 KR101647059B1 KR1020150037384A KR20150037384A KR101647059B1 KR 101647059 B1 KR101647059 B1 KR 101647059B1 KR 1020150037384 A KR1020150037384 A KR 1020150037384A KR 20150037384 A KR20150037384 A KR 20150037384A KR 101647059 B1 KR101647059 B1 KR 101647059B1
- Authority
- KR
- South Korea
- Prior art keywords
- iva
- signal
- target
- noise
- speech recognition
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 238000007796 conventional method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 독립 벡터 분석 및 모델 기반 특징 향상 방법을 이용한 강인한 음성 인식 방법에 관한 것이다. 상기 음성 인식 방법은, (a) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석(Independent Vector Analysys)하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (b) 상기 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 입력 신호 및 노이즈 신호로 설정하여, 모델 기반 특징 향상(Model-based Feature Enhancement;'MBFE') 방법을 적용하여 타겟 음성 신호를 추정하는 단계; 를 구비하여 음성 인식의 정확도를 향상시킨다.
Description
본 발명은 강인한 음성 인식 방법에 관한 것으로서, 더욱 구체적으로는, 독립 벡터 분석의 출력 신호들을 이용하여 모델-기반 특징 향상 방법을 적용함으로써 타겟 음성 신호를 추정하여 모든 노이즈에 강인한 음성 인식 방법에 관한 것이다.
음성 인식 시스템(ASR System)에 있어서, 실제 상황은 대부분 노이즈가 많은 환경에 있기 때문에 노이즈에 강인한 특성(Noise robustness)을 갖는 것은 매우 중요하다. 음성 인식 시스템의 인식 성능의 감쇠는 주로 학습 환경과 실제 환경과의 차이로부터 기인하는 경우가 많으며, 캡스트럼 평균 정규화(Cepstral Mean normalization) 또는 스펙트럼 차감(spectral subtraction)과 같은 단순한 방법들을 사용하여 전술한 불일치를 보상하여 손실들을 회복하고자 하는 연구들이 많이 진행되고 있다. 이러한 접근들에 의하여 음성 인식의 정확성을 향상시키고는 있지만, 대부분은 다양하면서 안정화되지 못한 노이즈들을 갖는 실세계의 환경들에서는 여전히 인식 성능을 향상시키지 못하고 있는 실정이다.
모델 기반 특징 향상(Model-based feature enhancement; 이하, 'MBFE'라 한다) 기법들은 관측된 noisy speech의 스펙트로그래픽 표현에서 노이즈로 인한 왜곡을 제거함으로써, Noise robustness을 향상시키는 것이다. 이러한 기법들은 주로 통계적인 공식에 기초한 것으로서, 입력된 Noisy speech에 대한 clean speech의 예상값, 입력 음성을 변질시키는 노이즈에 대한 일부 변수들의 추정 및 clean speech를 설명하는 a prior model을 제공한다.
MBFE의 성능은 corrupting noise를 설명하기 위하여 추정된 변수들에 주로 의존하게 된다. 하지만, 노이즈의 특성들은 매우 다양하고 모든 종류의 노이즈를 커버할 수 있는 노이즈 모델을 학습시키는 것은 불가능하다. 이 경우, 노이즈 모델에 관련된 변수들을 얻는 가장 쉬운 방법들 중 하나는, 단일의 음성 발성동안 정상적 노이즈(stationary noise) 및 low complex noise 모델을 가정하여, 묵음 기간동안의 평균(mean)과 같은 단순 통계를 추정하는 것이다.
하지만, 배경음악이나 경쟁이 되는 다른 음성과 같은 corrupting noise들은 짧은 기간동안이라 할지라도 정상적(stationary)이지 않을 수 있다. 다수 개의 마이크로폰이 있다면, 노이즈의 일부 변수들은 음성 성분을 제거한 후의 speech period 동안에서도 추정될 수 있다. 많은 음성 인식 시스템에 있어서, 관심 화자는 마이크로폰과 상대적으로 가까운 위치에 배치되며, 그 결과 그 방향이 쉽게 추정되고 타겟 반향 성분들이 감소될 수 있는 점 음원(point source)으로 취급될 수 있다.
종래의 BSSA(Blind Spatial Subtraction Array)라 불리는 특징 향상 방법은, 타겟 음성 신호 출력을 제거한 후, projection-back 방법을 사용한 ICA 에 의해 추정된 노이즈 파워 스펙트럼(noise power spectrum)을 빼는 것을 특징으로 한다. 이러한 BSSA 방법은, ICA 의 타겟 음성 신호 출력이 여전히 노이즈를 포함하고 있으며, 노이즈 파워 스펙트럼 추정이 완벽할 수 없기 때문에, 음성 인식의 성능을 떨어뜨리게 되는 문제점이 있다.
이와 같이, 종래의 모델 기반 특징 향상 기법은 stationary noise에 대해서는 noise robustness를 가지나, 배경음악이나 경쟁이 되는 다른 음성 신호들과 같은 nonstationary noise에 대해서는 추정할 수 없게 된다. 따라서, 이러한 종래의 모델 기반 특징 향상 기법을 사용하여 음성 인식을 수행하는 경우, 노이즈가 없는 타겟 음성 신호를 정확하게 추정하기 어렵기 때문에 음성 인식의 정확도가 떨어지게 된다.
전술한 문제점을 해결하기 위한 본 발명의 목적은 관심 화자인 타겟에 대한 방향 정보를 이용하여 독립 벡터 분석에 의해 얻은 출력 신호들로부터 IVA 타겟 음성 신호와 IVA 노이즈 신호를 1차로 추정하고, 1차로 추정된 신호들을 이용하여 모델 기반 특징 향상 방법을 적용함으로써, 정상적 노이즈(stationary noise) 뿐만 아니라 비정상적 노이즈(non-stationary noise)들에도 강인한 타겟 음성 신호를 추정할 수 있는 강인한 음성 인식 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 특징에 따른 강인한 음성 인식 방법은, (a) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석(Independent Vector Analysys)하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (b) 상기 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 입력 신호 및 노이즈 신호로 설정하여, 모델 기반 특징 향상(Model-based Feature Enhancement;'MBFE') 방법을 적용하여 타겟 음성 신호를 추정하는 단계; 를 구비하여 음성 인식의 정확도를 향상시킨다.
전술한 특징에 따른 강인한 음성 인식 방법에 있어서, 상기 (a) 단계는 (a1) 타겟에 대한 방향을 추정하는 단계; (a2) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석하여 소스 신호들을 출력하는 단계; (a3) 상기 추정된 타겟에 대한 방향을 이용하여 상기 IVA 출력 신호 중 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 선택하는 단계;를 구비하는 것이 바람직하다.
전술한 특징에 따른 강인한 음성 인식 방법에 있어서, 상기 (a3) 단계는, 분리 매트릭스를 이용하여 directions-of-Arrivals(DOA)를 계산하고, 상기 추정된 방향 정보와 상기 계산된 DOA를 비교하고, (a2) 단계에서 출력된 소스 신호들 중에서, 상기 추정된 타겟에 대한 방향과 DOA의 차이가 최소인 출력은 IVA 타겟 음성 신호로 결정하고, 그 외의 다른 출력들은 IVA 노이즈 신호로 결정하는 것이 바람직하다.
전술한 특징에 따른 강인한 음성 인식 방법에 있어서, 상기 (b) 단계에서의 상기 모델 기반 특징 향상 방법은 HMM(Hidden-Markov-model)을 기반으로 한 로그 멜-주파수 파워 스펙트럼 계수들(Logarithmic Mel-frequency Power Spectral Coefficients; 이하 'LMPSCs'라 한다)로부터 clean LMPSCs의 최소 평균 제곱 에러(a minimum mean square error ; 이하, 'MMSE'라 한다)의 추정을 유도해 내는 것이 바람직하다.
본 발명에 따른 강인한 음성 인식 방법은 정상적 노이즈(stationary noise) 뿐만 아니라, 비정상적 노이즈(nonstationary noise)들에도 강인한 음성 인식을 수행할 수 있게 된다.
도 1은 본 발명에 따른 음성 인식 방법과 종래의 음성 인식 방법들의 성능을 분석하기 위하여, 구성된 소스와 마이크로폰들을 도시한 구성도이다.
도 2는 도 1의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(FE), 종래 방법 3(IVA), 종래 방법 4(BSSA) 및 본 발명에 따른 방법(IVA-FE)에서의 SNR을 측정하여 도시한 도표이다.
도 2는 도 1의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(FE), 종래 방법 3(IVA), 종래 방법 4(BSSA) 및 본 발명에 따른 방법(IVA-FE)에서의 SNR을 측정하여 도시한 도표이다.
본 발명에 따른 강인한 음성 인식 방법은, 독립 벡터 분석(Independent Vector Analysis; 이하, 'IVA'라 한다)을 이용하여 마이크로폰들의 입력 신호들로부터 타겟 음성 신호 및 노이즈 신호를 1차로 추정하고, 1차 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 이용하여 모델 기반 특징 향상(Model-based Feature Enhancement) 방법을 적용하여, 정상적 노이즈 (stationary noise) 뿐만 아니라 비정상적 노이즈(nonstationary noise)도 제거된 타겟 음성 신호를 추정하는 것을 특징으로 한다.
특히, 본 발명은 강인한 음성 인식을 위하여 사용되는 특징 향상 기법은, HMM(Hidden Markov model)을 기반으로 한 로그 멜-주파수 파워 스펙트럼 계수(Logarithmic Mel-frequency Power Spectral Coeffecients; 이하, 'LMPSCs'라 한다.)로부터 clean LMPSCs의 최소 평균 제곱 에러(a minimum mean square error ; 이하, 'MMSE'라 한다)의 추정을 유도해 내는 것이다.
특징 향상을 위한 노이즈 모델과 관련된 변수들은, 단일 음성 발성 동안 정상적 노이즈(stationary noise) 및 단일 노이즈 모델을 가정하여, 단일 음성 발성이 없는 기간 동안의 평균이나 편차와 같은 기본 통계에 의해 추정할 수도 있지만, 노이즈는 단일의 음성 발성내에 짧은 간격에서조차도 stationary하지 않을 수 있다. 따라서, 본 발명에 따른 방법은 모델 기반 특징 향상을 위하여, 독립 벡터 분석(Independent Vector Analysis; 'IVA')를 채용하여, 사용된 음성 동안 연속적으로 변수들을 추정하고 향상된 타겟 음성 신호를 획득한다.
본 발명에 따른 방법은 실험적 결과로부터 경쟁되는 음성이 있는 경우라도 음성 인식에서의 노이즈 강인함(Noise robustness)을 더욱 향상시킬 수 있음을 확인할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 강인한 음성 인식 방법에 대하여 구체적으로 설명한다.
먼저, 본 발명에 다른 강인한 음성 인식 방법은 마이크로폰으로부터 입력된 입력 신호들에 대하여 독립 벡터 분석하고, 음원 소스들 중 관심 화자인 타겟의 방향에 대한 정보를 사전에 제공받고, 상기 타겟의 방향에 대한 정보를 이용하여 독립 벡터 분석의 출력들 중 타겟 음성 신호 및 노이즈 신호를 1차적으로 추정한다. 이하, 독립 벡터 분석하여 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 1차적으로 추정하는 과정을 구체적으로 설명한다.
먼저, 벡터 는, 상호 독립된 N개의 미지의 음원 소스들의 음성이 혼합된 벡터로서, i번째 프레임이며 j 번째 주파수 빈에서의 M 개의 observations의 시간-주파수 표현들로 구성된다. 소스 신호들을 복구하기 위한 observations에 대한 선형 변환은 수학식 1로 표현될 수 있다.
분리 매트릭스를 추정하기 위한 자연-경사도 IVA(natural-gradient IVA) 학습 규칙은 수학식 2에 의해 구할 수 있다.
여기서, I 는 아이덴티티 매트릭스(identity matrix)이다. 를 나타내는 를 갖는 추정된 소스들의 hypothesized pdf model 을 가정하면, multivariate score function은 및 , 1≤n≤N 에 의해 주어지며, 여기서, 는 주파수 빈의 개수를 나타낸다.
한편, 본 발명에 따른 강인한 음성 인식 방법에 있어서, 음성 소스들 중 관심 화자인 타겟의 도달 방향(Direction-of-Arrival; 이하, 'DOA')에 대한 정보는 사전에 입력되거나 image-based source detection 방법들에 의해 추정되어 제공될 수 있다. 전술한 방법에 의하여 타겟 소스에 대한 추정된 방향은 분리 매트릭스 로부터 계산된 DOA와 비교함으로써, IVA 출력 신호들 중에서 타겟 음성 신호 및 노이즈 신호를 결정할 수 있다.
균일하게 선형적인 마이크로폰 어레이를 사용하는 경우, j 번째 주파수 빈에서 n 번째 출력에 대응되는 사운드 소스의 DOA인 는 m 번째 및 m'번째 마이크로폰 쌍으로부터 수학식 3에 의해 구해질 수 있다.
permutation 문제들이 IVA에서 발생되지 않기 때문에, DOA는 spatial aliasing 없이 주파수 빈들에 대한 의 median value에 의해 구할 수 있다. 따라서, IVA 출력들에 있어서, 추정된 타겟 소스 방향으로부터 DOA 차이가 최소인 출력은 타겟 음성 출력으로 결정될 수 있으며, 그 외의 다른 출력들은 노이즈 출력으로 결정될 수 있다.
다음, 본 발명에 따른 음성 인식 방법은 인식 성능을 향상시키기 위하여, 전술한 IVA에 의해 추정된 타겟 음성 출력( ) 및 노이즈 출력을 이용하여 특징 향상(the feature enhancement)을 수행한다.
특징 향상을 수행함에 있어서, noisy speech로서 IVA 타겟 음성 출력( ) 을 사용하고, noise로는 IVA 노이즈 출력을 사용한다. 이하, HMM 모델 기반의 특징 향상의 수행 과정에 대하여 구체적으로 설명한다.
K-채널 멜-스케일 필터들(K-channel mel-scale filters) Λ k , k=1,...,K on 를 적용하면, noisy speech에 대한 LMPSC 인 는 수학식 5에 의해 얻을 수 있다.
여기서, 및 는 , 각각 clean speech 와 노이즈 의 LMPSCs 들이다. noisy LMPSCs 의 향상을 수행하기 위하여, 수학식 6은 에서 the first-order Taylor series expansion 을 사용하여 선형화시킴에 의해 근사적으로 수학식 7로 표현할 수 있게 된다.
대부분의 실질적인 상황에 있어서, 수학식 6에서의 의 정확한 값은 알지 못하며, random process로서 간주된다. 따라서, 및사이의 관계는 deterministic transformation으로서 설명될 수 없으며, probabilistic framework로 설명될 수 있다.
noise statistics를 설명하는 일부 변수들이 noisy signal 로부터 추정될 수 있다면, noisy speech 및 추정된 변수들의 값이 주어진다면 noisy LMPSCs의 향상은 수학식 10에 의해 나타내어지는 clean LMPSC vector의 MMSE 추정을 계산함에 의해 얻을 수 있게 된다.
여기서, 는 의 특징 벡터를 나타내며, 는 특징 벡터들의 시퀀스인 (y1, ... , yi)를 나타낸다. Bayesian framework를 사용하면, MMSE 추정은 posterior 확률밀도함수(pdf)인 로부터 얻을 수 있다.
prior distribution을 수식화하기 위하여, clean speech는 Single-Gaussian observation distribution을 갖는 HMM에 의해 설명될 수 있다고 가정하고, 수학식 11을 유도한다.
또한, covariance matrix 이 의 k-th diagonal element와 diagonal하다고 가정하고, 노이즈 는 mean과 variance 가 각각 , 인 Gaussian random process라고 가정한다.
그 다음, posterior pdf는 수학식 12로 수식화할 수 있다.
여기서, k 번째 멜 주파수 밴드의 오른쪽의 second term은 Bayesian rule에 의해 수학식 13과 같이 표현될 수 있다.
second term은 수학식 11로부터 수학식 16과 같이 나타낼 수 있다.
수학식 12의 오른쪽의 first term은 수학식 20과 같이 나타낼 수 있다.
수학식 12를 사용하면, 향상된 LMPSCs는 수학식 22에 의해 결정될 수 있다.
이하, 전술한 구성을 갖는 본 발명에 따른 강인한 음성 인식 방법에 대하여 성능을 살펴보기 위하여 임의의 조건에서 시뮬레이션하여, 종래의 다른 방법들과 비교분석하였다.
도 1은 본 발명에 따른 음성 인식 방법과 종래의 음성 인식 방법들의 성능을 분석하기 위하여, 구성된 소스와 마이크로폰들을 도시한 구성도이다.
도 1을 참조하면, Target speech, 간섭신호원 (Interference) 1, 2, 3 및 2개의 마이크로 폰이 설치되어 있다. 도 1의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(FE), 종래 방법 3(IVA), 종래 방법 4(BSSA) 및 본 발명에 따른 방법(IVA-FE)에서의 SNR을 측정하였으며, 그 결과를 도 2에 도시하였다. 여기서, 종래 방법 1은 마이크로폰으로부터 입력된 신호로부터 단어를 인식하는 방법이며, 종래 방법 2는 종래의 특징 향상(Feature Enhancement) 방법을 이용하여 음성 인식하는 것이며, 종래 방법 3은 독립 벡터 분석하여 음성 인식하는 것이며, 종래 방법 4는 BSSA 에 의해 음성 인식하는 것이다.
도 2를 참조하면, 모든 경우에서 본 발명에 따른 음성 인식 방법이 종래의 다른 방법들보다 SNR이 월등히 우수함을 쉽게 알 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특징을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명에 따른 방법은 음성 인식 시스템에 널리 사용될 수 있다.
Claims (4)
- (a) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석(Independent Vector Analysys)하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계;
(b) 상기 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 입력 신호 및 노이즈 신호로 설정하여, 모델 기반 특징 향상(Model-based Feature Enhancement;'MBFE') 방법을 적용하여 타겟 음성 신호를 추정하는 단계;
를 구비하고, 상기 (a) 단계는
(a1) 타겟에 대한 방향을 추정하는 단계;
(a2) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석하여 소스 신호들을 출력하는 단계;
(a3) 상기 추정된 타겟에 대한 방향을 이용하여 상기 IVA 출력 신호 중 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 선택하는 단계;
를 구비하여 음성 인식의 정확도를 향상시킨 것을 특징으로 하는 강인한 음성 인식 방법. - 삭제
- 제1항에 있어서, 상기 (a3) 단계는,
분리 매트릭스를 이용하여 directions-of-Arrivals(DOA)를 계산하고, 상기 추정된 방향 정보와 상기 계산된 DOA를 비교하고,
(a2) 단계에서 출력된 소스 신호들 중에서, 상기 추정된 타겟에 대한 방향과 DOA의 차이가 최소인 출력은 IVA 타겟 음성 신호로 결정하고, 그 외의 다른 출력들은 IVA 노이즈 신호로 결정하는 것을 특징으로 하는 강인한 음성 인식 방법. - 제1항에 있어서, 상기 (b) 단계에서의 상기 모델 기반 특징 향상 방법은 HMM(Hidden-Markov-model)을 기반으로 한 로그 멜-주파수 파워 스펙트럼 계수들(Logarithmic Mel-frequency Power Spectral Coefficients; 이하 'LMPSCs'라 한다)로부터 clean LMPSCs의 최소 평균 제곱 에러(a minimum mean square error ; 이하, 'MMSE'라 한다)의 추정을 유도해 내는 것을 특징으로 하는 강인한 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150037384A KR101647059B1 (ko) | 2015-03-18 | 2015-03-18 | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150037384A KR101647059B1 (ko) | 2015-03-18 | 2015-03-18 | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101647059B1 true KR101647059B1 (ko) | 2016-08-10 |
Family
ID=56713560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150037384A KR101647059B1 (ko) | 2015-03-18 | 2015-03-18 | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101647059B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107942290A (zh) * | 2017-11-16 | 2018-04-20 | 东南大学 | 基于bp神经网络的双耳声源定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100329596B1 (ko) | 1999-10-08 | 2002-03-21 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
KR20130125014A (ko) * | 2012-05-08 | 2013-11-18 | 서강대학교산학협력단 | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 |
-
2015
- 2015-03-18 KR KR1020150037384A patent/KR101647059B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100329596B1 (ko) | 1999-10-08 | 2002-03-21 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
KR20130125014A (ko) * | 2012-05-08 | 2013-11-18 | 서강대학교산학협력단 | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 |
KR101361034B1 (ko) | 2012-05-08 | 2014-02-11 | 서강대학교산학협력단 | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 |
Non-Patent Citations (1)
Title |
---|
Alexander Krugger et al., ‘Model-based feature enhancement for reverberant speech recognition’, IEEE Trans. on Audio,Speech and Language Processing, Vol.18, No.7, September 2010.* * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107942290A (zh) * | 2017-11-16 | 2018-04-20 | 东南大学 | 基于bp神经网络的双耳声源定位方法 |
CN107942290B (zh) * | 2017-11-16 | 2019-10-11 | 东南大学 | 基于bp神经网络的双耳声源定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
CN112447191A (zh) | 信号处理装置以及信号处理方法 | |
Wisdom et al. | Deep unfolding for multichannel source separation | |
Vu et al. | Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition | |
CN104485108A (zh) | 一种基于多说话人模型的噪声与说话人联合补偿方法 | |
Huang et al. | An energy-constrained signal subspace method for speech enhancement and recognition in white and colored noises | |
KR101720514B1 (ko) | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
Pardede et al. | Generalized filter-bank features for robust speech recognition against reverberation | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
Sarkar et al. | Stochastic feature compensation methods for speaker verification in noisy environments | |
Shimada et al. | Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition | |
JP6142402B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
Doulaty et al. | Automatic optimization of data perturbation distributions for multi-style training in speech recognition | |
Meyer et al. | Predicting error rates for unknown data in automatic speech recognition | |
Kinoshita et al. | Deep mixture density network for statistical model-based feature enhancement | |
Nakatani et al. | Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise | |
KR101647059B1 (ko) | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 | |
Badiezadegan et al. | A wavelet-based thresholding approach to reconstructing unreliable spectrogram components | |
Lee et al. | Speech enhancement by perceptual filter with sequential noise parameter estimation | |
Cho et al. | Bayesian feature enhancement using independent vector analysis and reverberation parameter re-estimation for noisy reverberant speech recognition | |
Ming et al. | An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion | |
Priya et al. | Linear transformation on speech subspace for analysis of speech under stress condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190701 Year of fee payment: 4 |