[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101647059B1 - 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 - Google Patents

독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 Download PDF

Info

Publication number
KR101647059B1
KR101647059B1 KR1020150037384A KR20150037384A KR101647059B1 KR 101647059 B1 KR101647059 B1 KR 101647059B1 KR 1020150037384 A KR1020150037384 A KR 1020150037384A KR 20150037384 A KR20150037384 A KR 20150037384A KR 101647059 B1 KR101647059 B1 KR 101647059B1
Authority
KR
South Korea
Prior art keywords
iva
signal
target
noise
speech recognition
Prior art date
Application number
KR1020150037384A
Other languages
English (en)
Inventor
박형민
조지원
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020150037384A priority Critical patent/KR101647059B1/ko
Application granted granted Critical
Publication of KR101647059B1 publication Critical patent/KR101647059B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 독립 벡터 분석 및 모델 기반 특징 향상 방법을 이용한 강인한 음성 인식 방법에 관한 것이다. 상기 음성 인식 방법은, (a) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석(Independent Vector Analysys)하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (b) 상기 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 입력 신호 및 노이즈 신호로 설정하여, 모델 기반 특징 향상(Model-based Feature Enhancement;'MBFE') 방법을 적용하여 타겟 음성 신호를 추정하는 단계; 를 구비하여 음성 인식의 정확도를 향상시킨다.

Description

독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법{Independent vector analysis followed by HMM-based feature enhancement for robust speech recognition}
본 발명은 강인한 음성 인식 방법에 관한 것으로서, 더욱 구체적으로는, 독립 벡터 분석의 출력 신호들을 이용하여 모델-기반 특징 향상 방법을 적용함으로써 타겟 음성 신호를 추정하여 모든 노이즈에 강인한 음성 인식 방법에 관한 것이다.
음성 인식 시스템(ASR System)에 있어서, 실제 상황은 대부분 노이즈가 많은 환경에 있기 때문에 노이즈에 강인한 특성(Noise robustness)을 갖는 것은 매우 중요하다. 음성 인식 시스템의 인식 성능의 감쇠는 주로 학습 환경과 실제 환경과의 차이로부터 기인하는 경우가 많으며, 캡스트럼 평균 정규화(Cepstral Mean normalization) 또는 스펙트럼 차감(spectral subtraction)과 같은 단순한 방법들을 사용하여 전술한 불일치를 보상하여 손실들을 회복하고자 하는 연구들이 많이 진행되고 있다. 이러한 접근들에 의하여 음성 인식의 정확성을 향상시키고는 있지만, 대부분은 다양하면서 안정화되지 못한 노이즈들을 갖는 실세계의 환경들에서는 여전히 인식 성능을 향상시키지 못하고 있는 실정이다.
모델 기반 특징 향상(Model-based feature enhancement; 이하, 'MBFE'라 한다) 기법들은 관측된 noisy speech의 스펙트로그래픽 표현에서 노이즈로 인한 왜곡을 제거함으로써, Noise robustness을 향상시키는 것이다. 이러한 기법들은 주로 통계적인 공식에 기초한 것으로서, 입력된 Noisy speech에 대한 clean speech의 예상값, 입력 음성을 변질시키는 노이즈에 대한 일부 변수들의 추정 및 clean speech를 설명하는 a prior model을 제공한다.
MBFE의 성능은 corrupting noise를 설명하기 위하여 추정된 변수들에 주로 의존하게 된다. 하지만, 노이즈의 특성들은 매우 다양하고 모든 종류의 노이즈를 커버할 수 있는 노이즈 모델을 학습시키는 것은 불가능하다. 이 경우, 노이즈 모델에 관련된 변수들을 얻는 가장 쉬운 방법들 중 하나는, 단일의 음성 발성동안 정상적 노이즈(stationary noise) 및 low complex noise 모델을 가정하여, 묵음 기간동안의 평균(mean)과 같은 단순 통계를 추정하는 것이다.
하지만, 배경음악이나 경쟁이 되는 다른 음성과 같은 corrupting noise들은 짧은 기간동안이라 할지라도 정상적(stationary)이지 않을 수 있다. 다수 개의 마이크로폰이 있다면, 노이즈의 일부 변수들은 음성 성분을 제거한 후의 speech period 동안에서도 추정될 수 있다. 많은 음성 인식 시스템에 있어서, 관심 화자는 마이크로폰과 상대적으로 가까운 위치에 배치되며, 그 결과 그 방향이 쉽게 추정되고 타겟 반향 성분들이 감소될 수 있는 점 음원(point source)으로 취급될 수 있다.
종래의 BSSA(Blind Spatial Subtraction Array)라 불리는 특징 향상 방법은, 타겟 음성 신호 출력을 제거한 후, projection-back 방법을 사용한 ICA 에 의해 추정된 노이즈 파워 스펙트럼(noise power spectrum)을 빼는 것을 특징으로 한다. 이러한 BSSA 방법은, ICA 의 타겟 음성 신호 출력이 여전히 노이즈를 포함하고 있으며, 노이즈 파워 스펙트럼 추정이 완벽할 수 없기 때문에, 음성 인식의 성능을 떨어뜨리게 되는 문제점이 있다.
이와 같이, 종래의 모델 기반 특징 향상 기법은 stationary noise에 대해서는 noise robustness를 가지나, 배경음악이나 경쟁이 되는 다른 음성 신호들과 같은 nonstationary noise에 대해서는 추정할 수 없게 된다. 따라서, 이러한 종래의 모델 기반 특징 향상 기법을 사용하여 음성 인식을 수행하는 경우, 노이즈가 없는 타겟 음성 신호를 정확하게 추정하기 어렵기 때문에 음성 인식의 정확도가 떨어지게 된다.
한국등록특허 제 10-0329596호 한국등록특허 제 10-1361034호
전술한 문제점을 해결하기 위한 본 발명의 목적은 관심 화자인 타겟에 대한 방향 정보를 이용하여 독립 벡터 분석에 의해 얻은 출력 신호들로부터 IVA 타겟 음성 신호와 IVA 노이즈 신호를 1차로 추정하고, 1차로 추정된 신호들을 이용하여 모델 기반 특징 향상 방법을 적용함으로써, 정상적 노이즈(stationary noise) 뿐만 아니라 비정상적 노이즈(non-stationary noise)들에도 강인한 타겟 음성 신호를 추정할 수 있는 강인한 음성 인식 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 특징에 따른 강인한 음성 인식 방법은, (a) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석(Independent Vector Analysys)하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (b) 상기 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 입력 신호 및 노이즈 신호로 설정하여, 모델 기반 특징 향상(Model-based Feature Enhancement;'MBFE') 방법을 적용하여 타겟 음성 신호를 추정하는 단계; 를 구비하여 음성 인식의 정확도를 향상시킨다.
전술한 특징에 따른 강인한 음성 인식 방법에 있어서, 상기 (a) 단계는 (a1) 타겟에 대한 방향을 추정하는 단계; (a2) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석하여 소스 신호들을 출력하는 단계; (a3) 상기 추정된 타겟에 대한 방향을 이용하여 상기 IVA 출력 신호 중 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 선택하는 단계;를 구비하는 것이 바람직하다.
전술한 특징에 따른 강인한 음성 인식 방법에 있어서, 상기 (a3) 단계는, 분리 매트릭스를 이용하여 directions-of-Arrivals(DOA)를 계산하고, 상기 추정된 방향 정보와 상기 계산된 DOA를 비교하고, (a2) 단계에서 출력된 소스 신호들 중에서, 상기 추정된 타겟에 대한 방향과 DOA의 차이가 최소인 출력은 IVA 타겟 음성 신호로 결정하고, 그 외의 다른 출력들은 IVA 노이즈 신호로 결정하는 것이 바람직하다.
전술한 특징에 따른 강인한 음성 인식 방법에 있어서, 상기 (b) 단계에서의 상기 모델 기반 특징 향상 방법은 HMM(Hidden-Markov-model)을 기반으로 한 로그 멜-주파수 파워 스펙트럼 계수들(Logarithmic Mel-frequency Power Spectral Coefficients; 이하 'LMPSCs'라 한다)로부터 clean LMPSCs의 최소 평균 제곱 에러(a minimum mean square error ; 이하, 'MMSE'라 한다)의 추정을 유도해 내는 것이 바람직하다.
본 발명에 따른 강인한 음성 인식 방법은 정상적 노이즈(stationary noise) 뿐만 아니라, 비정상적 노이즈(nonstationary noise)들에도 강인한 음성 인식을 수행할 수 있게 된다.
도 1은 본 발명에 따른 음성 인식 방법과 종래의 음성 인식 방법들의 성능을 분석하기 위하여, 구성된 소스와 마이크로폰들을 도시한 구성도이다.
도 2는 도 1의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(FE), 종래 방법 3(IVA), 종래 방법 4(BSSA) 및 본 발명에 따른 방법(IVA-FE)에서의 SNR을 측정하여 도시한 도표이다.
본 발명에 따른 강인한 음성 인식 방법은, 독립 벡터 분석(Independent Vector Analysis; 이하, 'IVA'라 한다)을 이용하여 마이크로폰들의 입력 신호들로부터 타겟 음성 신호 및 노이즈 신호를 1차로 추정하고, 1차 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 이용하여 모델 기반 특징 향상(Model-based Feature Enhancement) 방법을 적용하여, 정상적 노이즈 (stationary noise) 뿐만 아니라 비정상적 노이즈(nonstationary noise)도 제거된 타겟 음성 신호를 추정하는 것을 특징으로 한다.
특히, 본 발명은 강인한 음성 인식을 위하여 사용되는 특징 향상 기법은, HMM(Hidden Markov model)을 기반으로 한 로그 멜-주파수 파워 스펙트럼 계수(Logarithmic Mel-frequency Power Spectral Coeffecients; 이하, 'LMPSCs'라 한다.)로부터 clean LMPSCs의 최소 평균 제곱 에러(a minimum mean square error ; 이하, 'MMSE'라 한다)의 추정을 유도해 내는 것이다.
특징 향상을 위한 노이즈 모델과 관련된 변수들은, 단일 음성 발성 동안 정상적 노이즈(stationary noise) 및 단일 노이즈 모델을 가정하여, 단일 음성 발성이 없는 기간 동안의 평균이나 편차와 같은 기본 통계에 의해 추정할 수도 있지만, 노이즈는 단일의 음성 발성내에 짧은 간격에서조차도 stationary하지 않을 수 있다. 따라서, 본 발명에 따른 방법은 모델 기반 특징 향상을 위하여, 독립 벡터 분석(Independent Vector Analysis; 'IVA')를 채용하여, 사용된 음성 동안 연속적으로 변수들을 추정하고 향상된 타겟 음성 신호를 획득한다.
본 발명에 따른 방법은 실험적 결과로부터 경쟁되는 음성이 있는 경우라도 음성 인식에서의 노이즈 강인함(Noise robustness)을 더욱 향상시킬 수 있음을 확인할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 강인한 음성 인식 방법에 대하여 구체적으로 설명한다.
먼저, 본 발명에 다른 강인한 음성 인식 방법은 마이크로폰으로부터 입력된 입력 신호들에 대하여 독립 벡터 분석하고, 음원 소스들 중 관심 화자인 타겟의 방향에 대한 정보를 사전에 제공받고, 상기 타겟의 방향에 대한 정보를 이용하여 독립 벡터 분석의 출력들 중 타겟 음성 신호 및 노이즈 신호를 1차적으로 추정한다. 이하, 독립 벡터 분석하여 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 1차적으로 추정하는 과정을 구체적으로 설명한다.
먼저, 벡터
Figure 112015026413309-pat00001
는, 상호 독립된 N개의 미지의 음원 소스들의 음성이 혼합된 벡터로서, i번째 프레임이며 j 번째 주파수 빈에서의 M 개의 observations의 시간-주파수 표현들로 구성된다. 소스 신호들을 복구하기 위한 observations에 대한 선형 변환은 수학식 1로 표현될 수 있다.
Figure 112015026413309-pat00002
여기서,
Figure 112015026413309-pat00003
은 추정된 소스 신호들의 시간-주파수 표현으로 구성된 벡터이며,
Figure 112015026413309-pat00004
는 j번째 주파수 빈에서의 분리 매트릭스(separating matrix)이다.
분리 매트릭스를 추정하기 위한 자연-경사도 IVA(natural-gradient IVA) 학습 규칙은 수학식 2에 의해 구할 수 있다.
Figure 112015026413309-pat00005
여기서, I 는 아이덴티티 매트릭스(identity matrix)이다.
Figure 112015026413309-pat00006
를 나타내는
Figure 112015026413309-pat00007
를 갖는 추정된 소스들의 hypothesized pdf model
Figure 112015026413309-pat00008
을 가정하면, multivariate score function은
Figure 112015026413309-pat00009
Figure 112015026413309-pat00010
, 1≤nN 에 의해 주어지며, 여기서,
Figure 112015026413309-pat00011
는 주파수 빈의 개수를 나타낸다.
한편, 본 발명에 따른 강인한 음성 인식 방법에 있어서, 음성 소스들 중 관심 화자인 타겟의 도달 방향(Direction-of-Arrival; 이하, 'DOA')에 대한 정보는 사전에 입력되거나 image-based source detection 방법들에 의해 추정되어 제공될 수 있다. 전술한 방법에 의하여 타겟 소스에 대한 추정된 방향은 분리 매트릭스
Figure 112015026413309-pat00012
로부터 계산된 DOA와 비교함으로써, IVA 출력 신호들 중에서 타겟 음성 신호 및 노이즈 신호를 결정할 수 있다.
균일하게 선형적인 마이크로폰 어레이를 사용하는 경우, j 번째 주파수 빈에서 n 번째 출력에 대응되는 사운드 소스의 DOA인
Figure 112015026413309-pat00013
는 m 번째 및 m'번째 마이크로폰 쌍으로부터 수학식 3에 의해 구해질 수 있다.
Figure 112015026413309-pat00014
여기서, [·]nm 은 매트릭스의 m 번째 열과 n 번째 행의 성분을 나타내며,
Figure 112015026413309-pat00015
는 샘플링 주파수이며, d는 인접한 마이크로폰들 사이의 거리이며, c는 음속이다.
permutation 문제들이 IVA에서 발생되지 않기 때문에, DOA는 spatial aliasing 없이 주파수 빈들에 대한
Figure 112015026413309-pat00016
의 median value에 의해 구할 수 있다. 따라서, IVA 출력들에 있어서, 추정된 타겟 소스 방향으로부터 DOA 차이가 최소인 출력은 타겟 음성 출력으로 결정될 수 있으며, 그 외의 다른 출력들은 노이즈 출력으로 결정될 수 있다.
다음, 본 발명에 따른 음성 인식 방법은 인식 성능을 향상시키기 위하여, 전술한 IVA에 의해 추정된 타겟 음성 출력(
Figure 112015026413309-pat00017
) 및 노이즈 출력을 이용하여 특징 향상(the feature enhancement)을 수행한다.
특징 향상을 수행함에 있어서, noisy speech로서 IVA 타겟 음성 출력(
Figure 112015026413309-pat00018
) 을 사용하고, noise로는 IVA 노이즈 출력을 사용한다. 이하, HMM 모델 기반의 특징 향상의 수행 과정에 대하여 구체적으로 설명한다.
i 번째 프레임 및 j 번째 주파수 빈에서의 노이즈 음성의 시간-주파수 표현인
Figure 112015026413309-pat00019
는 수학식 4에 의해 나타낼 수 있다.
Figure 112015026413309-pat00020
여기서,
Figure 112015026413309-pat00021
Figure 112015026413309-pat00022
는 각각 clean speech 및 noise를 표시한다.
K-채널 멜-스케일 필터들(K-channel mel-scale filters) Λ k , k=1,...,K on
Figure 112015026413309-pat00023
를 적용하면, noisy speech에 대한 LMPSC 인
Figure 112015026413309-pat00024
는 수학식 5에 의해 얻을 수 있다.
Figure 112015026413309-pat00025
여기서,
Figure 112015026413309-pat00026
Figure 112015026413309-pat00027
는 각각 k 번째 필터의 non-zero weights의 하위 및 상위 bounds 들이다.
음성신호와 노이즈 신호가 서로 상관되어 있지 않다(uncorrelated)고 가정하면, LMPSC
Figure 112015026413309-pat00028
는 수학식 6으로 표현될 수 있다.
Figure 112015026413309-pat00029
여기서,
Figure 112015026413309-pat00030
Figure 112015026413309-pat00031
는 , 각각 clean speech
Figure 112015026413309-pat00032
와 노이즈
Figure 112015026413309-pat00033
의 LMPSCs 들이다. noisy LMPSCs 의 향상을 수행하기 위하여, 수학식 6은
Figure 112015026413309-pat00034
에서 the first-order Taylor series expansion 을 사용하여 선형화시킴에 의해 근사적으로 수학식 7로 표현할 수 있게 된다.
Figure 112015026413309-pat00035
여기서,
Figure 112015026413309-pat00036
Figure 112015026413309-pat00037
는 수학식 8 및 9이다.
Figure 112015026413309-pat00038
Figure 112015026413309-pat00039
대부분의 실질적인 상황에 있어서, 수학식 6에서의
Figure 112015026413309-pat00040
의 정확한 값은 알지 못하며, random process로서 간주된다. 따라서,
Figure 112015026413309-pat00041
Figure 112015026413309-pat00042
사이의 관계는 deterministic transformation으로서 설명될 수 없으며, probabilistic framework로 설명될 수 있다.
noise statistics를 설명하는 일부 변수들이 noisy signal 로부터 추정될 수 있다면, noisy speech
Figure 112015026413309-pat00043
및 추정된 변수들의 값이 주어진다면 noisy LMPSCs의 향상은 수학식 10에 의해 나타내어지는 clean LMPSC vector의 MMSE 추정을 계산함에 의해 얻을 수 있게 된다.
Figure 112015026413309-pat00044
여기서,
Figure 112015026413309-pat00045
Figure 112015026413309-pat00046
의 특징 벡터를 나타내며,
Figure 112015026413309-pat00047
는 특징 벡터들의 시퀀스인 (y1, ... , yi)를 나타낸다. Bayesian framework를 사용하면, MMSE 추정은 posterior 확률밀도함수(pdf)인
Figure 112015026413309-pat00048
로부터 얻을 수 있다.
prior distribution을 수식화하기 위하여, clean speech는 Single-Gaussian observation distribution을 갖는 HMM에 의해 설명될 수 있다고 가정하고, 수학식 11을 유도한다.
Figure 112015026413309-pat00049
여기서,
Figure 112015026413309-pat00050
Figure 112015026413309-pat00051
는 각각 프레임 i에서의 hidden state index 및 state들의 개수를 나타낸다.
또한, covariance matrix
Figure 112015026413309-pat00052
Figure 112015026413309-pat00053
의 k-th diagonal element와 diagonal하다고 가정하고, 노이즈
Figure 112015026413309-pat00054
는 mean과 variance 가 각각
Figure 112015026413309-pat00055
,
Figure 112015026413309-pat00056
인 Gaussian random process라고 가정한다.
그 다음, posterior pdf는 수학식 12로 수식화할 수 있다.
Figure 112015026413309-pat00057
여기서, k 번째 멜 주파수 밴드의 오른쪽의 second term은 Bayesian rule에 의해 수학식 13과 같이 표현될 수 있다.
Figure 112015026413309-pat00058
수학식 7에서
Figure 112015026413309-pat00059
Figure 112015026413309-pat00060
일 때, 수학식 13의 오른쪽의 first term은 수학식 14와 같이 근사화할 수 있다.
Figure 112015026413309-pat00061
여기서,
Figure 112015026413309-pat00062
은 수학식 15 이다.
Figure 112015026413309-pat00063
second term은 수학식 11로부터 수학식 16과 같이 나타낼 수 있다.
Figure 112015026413309-pat00064
따라서,
Figure 112015026413309-pat00065
은 또한 수학식 17과 같이 나타낼 수 있다.
Figure 112015026413309-pat00066
Figure 112015026413309-pat00067
Figure 112015026413309-pat00068
수학식 12의 오른쪽의 first term은 수학식 20과 같이 나타낼 수 있다.
Figure 112015026413309-pat00069
state transition probability
Figure 112015026413309-pat00070
을 사용하면,
Figure 112015026413309-pat00071
는 수학식 21과 같이 나타낼 수 있다.
Figure 112015026413309-pat00072
그리고,
Figure 112015026413309-pat00073
은 HMM의 observation distribution
Figure 112015026413309-pat00074
에 의해 획득될 수 있다.
수학식 12를 사용하면, 향상된 LMPSCs는 수학식 22에 의해 결정될 수 있다.
Figure 112015026413309-pat00075
이하, 전술한 구성을 갖는 본 발명에 따른 강인한 음성 인식 방법에 대하여 성능을 살펴보기 위하여 임의의 조건에서 시뮬레이션하여, 종래의 다른 방법들과 비교분석하였다.
도 1은 본 발명에 따른 음성 인식 방법과 종래의 음성 인식 방법들의 성능을 분석하기 위하여, 구성된 소스와 마이크로폰들을 도시한 구성도이다.
도 1을 참조하면, Target speech, 간섭신호원 (Interference) 1, 2, 3 및 2개의 마이크로 폰이 설치되어 있다. 도 1의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(FE), 종래 방법 3(IVA), 종래 방법 4(BSSA) 및 본 발명에 따른 방법(IVA-FE)에서의 SNR을 측정하였으며, 그 결과를 도 2에 도시하였다. 여기서, 종래 방법 1은 마이크로폰으로부터 입력된 신호로부터 단어를 인식하는 방법이며, 종래 방법 2는 종래의 특징 향상(Feature Enhancement) 방법을 이용하여 음성 인식하는 것이며, 종래 방법 3은 독립 벡터 분석하여 음성 인식하는 것이며, 종래 방법 4는 BSSA 에 의해 음성 인식하는 것이다.
도 2를 참조하면, 모든 경우에서 본 발명에 따른 음성 인식 방법이 종래의 다른 방법들보다 SNR이 월등히 우수함을 쉽게 알 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특징을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명에 따른 방법은 음성 인식 시스템에 널리 사용될 수 있다.

Claims (4)

  1. (a) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석(Independent Vector Analysys)하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계;
    (b) 상기 추정된 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 입력 신호 및 노이즈 신호로 설정하여, 모델 기반 특징 향상(Model-based Feature Enhancement;'MBFE') 방법을 적용하여 타겟 음성 신호를 추정하는 단계;
    를 구비하고, 상기 (a) 단계는
    (a1) 타겟에 대한 방향을 추정하는 단계;
    (a2) 마이크로폰으로 입력된 신호들에 대하여 독립 벡터 분석하여 소스 신호들을 출력하는 단계;
    (a3) 상기 추정된 타겟에 대한 방향을 이용하여 상기 IVA 출력 신호 중 IVA 타겟 음성 신호 및 IVA 노이즈 신호를 각각 선택하는 단계;
    를 구비하여 음성 인식의 정확도를 향상시킨 것을 특징으로 하는 강인한 음성 인식 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 (a3) 단계는,
    분리 매트릭스를 이용하여 directions-of-Arrivals(DOA)를 계산하고, 상기 추정된 방향 정보와 상기 계산된 DOA를 비교하고,
    (a2) 단계에서 출력된 소스 신호들 중에서, 상기 추정된 타겟에 대한 방향과 DOA의 차이가 최소인 출력은 IVA 타겟 음성 신호로 결정하고, 그 외의 다른 출력들은 IVA 노이즈 신호로 결정하는 것을 특징으로 하는 강인한 음성 인식 방법.
  4. 제1항에 있어서, 상기 (b) 단계에서의 상기 모델 기반 특징 향상 방법은 HMM(Hidden-Markov-model)을 기반으로 한 로그 멜-주파수 파워 스펙트럼 계수들(Logarithmic Mel-frequency Power Spectral Coefficients; 이하 'LMPSCs'라 한다)로부터 clean LMPSCs의 최소 평균 제곱 에러(a minimum mean square error ; 이하, 'MMSE'라 한다)의 추정을 유도해 내는 것을 특징으로 하는 강인한 음성 인식 방법.


KR1020150037384A 2015-03-18 2015-03-18 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 KR101647059B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150037384A KR101647059B1 (ko) 2015-03-18 2015-03-18 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150037384A KR101647059B1 (ko) 2015-03-18 2015-03-18 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법

Publications (1)

Publication Number Publication Date
KR101647059B1 true KR101647059B1 (ko) 2016-08-10

Family

ID=56713560

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150037384A KR101647059B1 (ko) 2015-03-18 2015-03-18 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101647059B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100329596B1 (ko) 1999-10-08 2002-03-21 윤덕용 전화음성을 이용한 문장독립형 화자식별방법
KR20130125014A (ko) * 2012-05-08 2013-11-18 서강대학교산학협력단 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100329596B1 (ko) 1999-10-08 2002-03-21 윤덕용 전화음성을 이용한 문장독립형 화자식별방법
KR20130125014A (ko) * 2012-05-08 2013-11-18 서강대학교산학협력단 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
KR101361034B1 (ko) 2012-05-08 2014-02-11 서강대학교산학협력단 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Alexander Krugger et al., ‘Model-based feature enhancement for reverberant speech recognition’, IEEE Trans. on Audio,Speech and Language Processing, Vol.18, No.7, September 2010.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN107942290B (zh) * 2017-11-16 2019-10-11 东南大学 基于bp神经网络的双耳声源定位方法

Similar Documents

Publication Publication Date Title
Delcroix et al. Compact network for speakerbeam target speaker extraction
CN112447191A (zh) 信号处理装置以及信号处理方法
Wisdom et al. Deep unfolding for multichannel source separation
Vu et al. Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
Huang et al. An energy-constrained signal subspace method for speech enhancement and recognition in white and colored noises
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
Pardede et al. Generalized filter-bank features for robust speech recognition against reverberation
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
Sarkar et al. Stochastic feature compensation methods for speaker verification in noisy environments
Shimada et al. Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
Doulaty et al. Automatic optimization of data perturbation distributions for multi-style training in speech recognition
Meyer et al. Predicting error rates for unknown data in automatic speech recognition
Kinoshita et al. Deep mixture density network for statistical model-based feature enhancement
Nakatani et al. Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise
KR101647059B1 (ko) 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법
Badiezadegan et al. A wavelet-based thresholding approach to reconstructing unreliable spectrogram components
Lee et al. Speech enhancement by perceptual filter with sequential noise parameter estimation
Cho et al. Bayesian feature enhancement using independent vector analysis and reverberation parameter re-estimation for noisy reverberant speech recognition
Ming et al. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion
Priya et al. Linear transformation on speech subspace for analysis of speech under stress condition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 4