KR20080032348A - 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 - Google Patents
음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 Download PDFInfo
- Publication number
- KR20080032348A KR20080032348A KR1020060097970A KR20060097970A KR20080032348A KR 20080032348 A KR20080032348 A KR 20080032348A KR 1020060097970 A KR1020060097970 A KR 1020060097970A KR 20060097970 A KR20060097970 A KR 20060097970A KR 20080032348 A KR20080032348 A KR 20080032348A
- Authority
- KR
- South Korea
- Prior art keywords
- hmm
- observation information
- state
- clustering
- cluster
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000007621 cluster analysis Methods 0.000 claims 6
- 239000013598 vector Substances 0.000 abstract description 25
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract 4
- 230000001755 vocal effect Effects 0.000 description 9
- 238000003064 k means clustering Methods 0.000 description 8
- 230000005284 excitation Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000004615 ingredient Substances 0.000 description 4
- 238000011867 re-evaluation Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성 대역폭의 확장에 적용되는 히든 마코브 모델(Hidden Markov Model : 이하 "HMM") 파라미터를 생성하기 위한 장치 및 방법에 대한 것으로, 특히 협대역 관측정보(성도 성분 : Vocal Tract)를 주파수 확장할 때 사용되는 광대역 관측정보 코드북을 설계함에 있어 필요한 HMM 파라미터를 생성하기 위한 장치 및 방법에 대한 것이다.
그리고 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 장치에 있어서, 상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터기와, 상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터기와, 상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하고, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 생성기를 포함한다.
따라서 본 발명은 음성 대역폭을 확장하기 위해, 손실대역 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행하여, HMM 코드북을 구성하는 각각의 코드벡터와 HMM 상태 간의 일대일 대응을 유지하고, 코드벡터 수가 불필요하게 증가하는 것을 방지함과 동시에 계산량을 감소시킬 수 있다.
주파수 확장, HMM, 상태 클러스터, 혼합 클러스터, 손실대역 관측정보, 협대역 관측정보.
Description
도 1은 종래 협대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도,
도 2는 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도,
도 3은 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방법을 나타낸 순서도,
도 4는 도 3의 상태 클러스터링 및 혼합 클러스터링에서 수행되는 클러스터링 방법을 나타낸 순서도,
도 5은 도 3에서 HMM 파라미터의 재평가 방법을 나타낸 순서도.
본 발명은 음성 대역폭의 확장에 적용되는 히든 마코브 모델(Hidden Markov Model : 이하 "HMM") 파라미터를 생성하기 위한 장치 및 방법에 대한 것으로, 특히 협대역 관측정보(성도 성분 : Vocal Tract)를 주파수 확장할 때 사용되는 광대역 관측정보 코드북을 설계함에 있어 필요한 HMM 파라미터를 생성하기 위한 장치 및 방법에 대한 것이다.
일반적으로 사람의 음성 신호는 8kHz 이상의 주파수 범위를 갖지만, 8kHz의 주파수 대역폭으로도 원음에 가까운 특성을 유지 할 수 있다. 이러한 8kHz의 주파수 대역폭을 갖는 음성 신호를 광대역(Wide-Band) 음성 신호라고 한다.
그러나 상기 광대역 음성 신호가 300~3400Hz의 주파수 대역폭을 갖는 전화망을 통과하는 동안, 전화망의 고유 주파수 대역폭으로 인해 음성 신호의 주파수 대역폭이 300~3400Hz 이내로 한정된다. 이러한 300~3400Hz의 주파수 대역폭을 갖는 음성 신호를 협대역(Narraw-Band) 음성 신호라고 한다. 상기 협대역 음성 신호에는 3400Hz~8kHz의 손실대역(Missing-Band) 음성 신호가 존재하지 않으므로 명료도(intelligibility)가 광대역 음성 신호에 비해 저하된다. 따라서 협대역 음성 신호를 수신하는 수신자는 명료도가 저하된 음성을 청취하게 된다. 이러한 문제를 해결하기 위해 협대역 음성 신호를 사용하여 광대역 음성 신호로 복구하는 주파수 확장 기술(bandwidth extension technology)이 연구되고 있다.
상기 주파수 확장 기술의 일반적인 구현 과정은 다음과 같다.
먼저, 협대역 음성 신호를 분석하여 여기(excitation) 신호와 성도(vocal tract) 성분으로 구분한다. 참고로 상기 여기 신호는 허파로부터 유발되는 주파수 스펙트럼의 크기가 전체 주파수 대역에 걸쳐 일정한 소리에 대응되며, 성도를 거치 면서 구체적인 음색을 갖는 음성 신호로 전환된다. 상기 성도 성분은 주파수에 따른 음성의 스펙트럼 크기 정보와 대응된다.
다음으로 상기 협대역 여기 신호에 대해서 업-샘플링(Up-Sampling)을 통한 스펙트럴-폴딩(Spectral-Folding) 기법, 웨이브 정류기(Wave Rectifier) 함수를 이용한 비선형(Non-Linear) 프로세싱 기법, 잡음 변조(modulation) 기법들 중 하나를 적용하여 손실대역 여기 신호를 생성한다. 또한 상기 협대역 성도 성분에 대해서 벡터 양자화, 가우시안 혼합 모델(Gaussian Mixture Model : 이하 "GMM" ), HMM 기법들 중 하나를 적용하여 생성된 광대역 성도 성분 코드북으로부터 광대역 성도 성분을 추출한다.
마지막으로 상기한 과정을 통해 만들어진 손실대역 여기 신호와 광대역 성도 성분을 합성하여 손실대역 음성 신호를 생성한다. 이때, 여기 신호는 손실대역만 존재하므로 광대역 성도 성분을 사용해도 손실대역 음성 신호만 생성된다. 최종적으로 수신한 협대역 음성 신호와 생성한 손실대역 음성 신호를 더해서 광대역 음성 신호를 생성한다.
이하, 상기 주파수 확장 기술의 구현 과정에서 HMM 기법을 적용하여 광대역 성도 성분 코드북을 생성하는 방식을 설명하기로 한다.
주파수 확장 기술에서 협대역 성도 성분으로부터 광대역 성도 성분을 추출하기 위해 광대역 성도 성분 코드북을 생성한다. 이때 상기 광대역 성도 성분 코드북은 HMM을 적용하여 통계적인 접근 방식으로 생성된 손실대역 성도 성분과 종래의 협대역 음성 신호로부터 추출한 협대역 성도 성분의 조합으로 구성된다. 즉, HMM의 사용 목적은 협대역 성도 성분을 관측했을 때, 통계적인 HMM 파라미터()를 이용하여 손실대역의 성도 성분을 예측하는 데 있다. 여기서 는 HMM의 파라미터를 정의하기 위해서 사용되며, 아래 <수학식 1>과 같이 계산된다.
상기 <수학식 1>에서 는 상태 의 초기 확률들의 집합으로써 HMM이 상태 에 처음 머무를 확률을 나타내고, 는 개의 한정된 값을 갖는다고 가정한다. 여기서 HMM 상태 는 각각 다른 손실대역 성도 성분을 갖는 음소(Phoneme)들을 표현하고 있으며, 광대역 성도 성분 코드북을 구성하고 있는 코드벡터들과 일대일 대응(One-To-One Mapping)이 된다. 그리고 는 상태 천이 확률들의 집합이고, 는 프레임 인덱스, 는 마지막 프레임을 가리킨다. 는 상태 에 대한 현재 순간의 관측 벡터 확률들의 집합으로써, 아래 <수학식 2>와 같이 GMM으로 계산된다.
상기 <수학식 2>에서 는 혼합 성분(Mixture Component)을 나타내고, 는 관측 벡터 성분을 나타낸다. 즉, <수학식 2>는 개의 혼합 성분과 개의 벡터 차수(Dimension)로 표현된다. 그리고 는 상태 에서 혼합 성분 의 가중치(Weight)를 나타낸다. 와 는 각각 상태가 이고 혼합성분이 인 관측 벡터의 평균 값(Mean)과 공분산(Covariance) 행렬을 나타낸다. 또한 는 관측 벡터의 번째 성분, 는 번째 성분의 평균 값, 는 d번째 성분의 분산 값을 나타낸다.
또한 생성된 HMM 파라미터()가 정확 할 수록 예측되는 손실대역의 성도 성분에 대한 오차가 작으므로 HMM 파라미터()의 정확도를 높이는 것이 중요하다. 상기 HMM 파라미터()의 정확도를 높이기 위해, 최적의 HMM 파라미터()를 아래 <수학식 3>과 같이 계산한다.
상기 <수학식 3>에서 는 번째 프레임까지의 관측 시퀀스 정보를 나타내며, HMM 파라미터를 생성하기 위해 사용된다. 그리고 상기 최적의 HMM 파라미터()는 Baum-Welch 재평가(re-estimation) 알고리즘에 의해 계산될 수 있다. 상기 Baum-Welch 재평가 알고리즘은 반복적인(iterative) 과정을 거쳐서 <수학식 3>의 확률 값이 국부적으로(locally) 최대 값을 가지도록 HMM 파라미터()를 선택하는 방식을 사용한다. 따라서 <수학식 3>의 확률 값이 전체적인(global) 최대 값을 값기 위해서는 HMM 파라미터를 생성하는 과정에서 HMM 파라미터()의 초기 값을 결정하는 방법이 중요하다.
이하, 광대역 성도 성분 코드북을 생성하기 위해 HMM 파라미터의 초기 값()를 결정 한 후, 상기 결정된 HMM 파라미터의 초기 값()이 최적의 HMM 파라미터()인지 재평가하여 HMM 파라미터를 생성하는 방식을 설명하기로 한다.
도 1은 종래 협대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도이다.
도 1의 프레임기(101)는 샘플링 주파수가 16kHz인 광대역 음성 데이터를 프레임 단위로 생성하고, 현재 프레임의 광대역 음성 데이터()를 협대역 통과 필터(102)에 전송한다. 상기 협대역 통과 필터(102)는 협대역 음성 데이터만 추출하여 관측정보 분석기(103)에 전송한다. 상기 협대역 관측정보 분석기(103)는 전송 받은 프레임의 협대역 음성 데이터를 현재 프레임의 협대역 성도 성분을 가리키는 관측정보()로 분석하여, 협대역 관측정보 저장기(105)에 저장한다. 상기 협대역 관측정보 저장기(105)는 모든 프레임에 대한 협대역 관측정보({})를 저장한다.
도 1에서 HMM 파라미터 생성기(150)는 상기 저장된 협대역 관측정보({})를 이용하여 HMM 파라미터를 생성하기 위해, 상태 클러스터기(107)와, 혼합 클러스터기(109)와, HMM 파라미터 결정기(111)와, HMM 파라미터 재평가기(113)를 포함한다.
상기 상태 클러스터기(107)는 상기 협대역 관측정보 저장기(105)에 저장된 협대역 관측정보({})를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리(Euclidian Distance) 관점에서 서로 이웃하고 있는 협대역 관측정보들을 그룹화하도록하여 복수의 상태 클러스터()로 클러스터링 한다. 그리고 혼합 클러스터기(109)는 상기 복수의 상태 클러스터()에서 각 상태 클러스터에 포함되는 협대역 관측정보({})를 K-means 알고리즘을 이용하여 혼합 클러스터()로 클러스터링한다. 따라서 상기 상태 클러스터기(107)와 혼합 클러스터기(109)는 유사한 협대역 성도 성분을 갖는 프레임들을 하나의 HMM 상태로 그룹화할 수 있다. 한편, 상기 상태 클러스터기(107)와 혼합 클러스터기(109)에서 적용되는 K-means 클러스터링 알고리즘은 도 4에서 상세히 설명하기로 한다.
상기 HMM 파라미터 결정기(111)는 상기 상태 클러스터({})와 혼합 클러스터({})를 이용하여 HMM 파라미터의 초기 값()를 계산한다. 상기 초기 값()의 구성 성분은 상기 <수학식 1>과 동일하며, 상세한 설명은 후술하기로 한다. HMM 재평가기(113)는 상기 초기 값()이 최적의 HMM 파라미터()인지 상기 Baum-Welch 재평가 알고리즘을 사용하여 재평가 한다. 따라서 상기 HMM 재평가기(113)은 최적의 ()값으로 {}을 출력한다.
상기 협대역 관측정보를 이용하여 HMM 파라미터를 생성하는 종래 방식은 유사한 협대역의 성도 성분을 갖는 프레임들을 하나의 HMM 상태로 그룹화하지만 HMM 상태를 표현하기 위해서 손실대역의 성도 성분을 전혀 고려하지 않는다. 따라서 종래 방식은 HMM 상태들이 다양한 음소들을 표현하기에는 한계가 있다. 이런 문제를 해결하기 위하여 협대역 및 손실광대역 관측정보들을 모두 이용하여 HMM 파라미터를 생성하는 방식이 제안되었다.
상기 협대역 및 손실대역 관측정보들을 이용하여 HMM 파라미터를 생성하는 방식은 협대역의 성도 성분을 가리키는 관측정보 ({})와 손실대역의 성도 성분을 가리키는 관측정보()가 동시에 상태 클러스터기와 혼합 클러스터기에 입력될 수 있도록 구현된다. 따라서 HMM 재평가를 수행 할 때, 상기 협대역 관측정보({}), 손실대역 관측정보()와 HMM 파라미터의 초기 값()을 Baum-Welch 재평가 알고리즘을 사용하여 구해진 최적의 HMM 파라미터 ()값으로 을 출력한다.
상기 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방식은 유사한 광대역 성도 성분을 갖는 프레임들을 하나의 HMM 상태로 그룹하는 것으로써 HMM 상태들이 다양한 음소들로 표현될 수 있기 때문에 협대역만을 이용하는 경우 보다 우수한 성능을 갖는다.
그러나 상기 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 종래 방식은 상태 클러스터링 및 혼합 클러스터링을 협대역 및 광대역 관측정보에 대해 모두 적용함으로써 손실대역 관측정보가 거의 동일한 프레임일지라도 그것들의 협대역 관측정보가 다르면 서로 다른 혼합 상태로 할당되어 코드북의 코드벡터 수를 불필요하게 증가시킬 수 있다. 즉, 실제로 HMM 상태 수는 손실대역 성도 성분 특성을 표현하는 개수에 의존한다. 따라서, 상기 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방식은 HMM 상태와 광대역 성도 성분 코드북의 코드벡터간의 일대다 대응(One-To-Many Mapping)이 된다. 그리고 손실대역 성도 성분들을 관측정보로 사용하기 때문에 협대역만 이용하는 경우에 비해 관측정보 벡터의 차수가 증가하고, 이로인해 Baum-Welch 재평가 계산식을 수행할 때, 계산량이 상당히 증가되는 문제점이 발생된다.
본 발명은 음성 대역폭의 확장에 적용되는 HMM 파라미터를 생성하기 위한 장치 및 방법을 제공한다.
또한 본 발명은 협대역 관측정보와 손실대역 관측정보를 이용하되 코드북의 코드벡터 수를 줄일 수 있는 HMM 파라미터 생성 장치 및 방법을 제공한다.
따라서 본 발명은 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 장치에 있어서, 상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터기와, 상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터기와, 상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하고, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 생성기를 포함한다.
또한 본 발명은 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 방법에 있어서, 상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터링 과정과, 상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터링 과정과, 상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하는 HMM 파라미터 초기 값 결정 과정과, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 재평가 과정을 포함한다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한 다. 또한 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 이용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다.
먼저 본 발명의 기본 개념을 설명하면, 본 발명은 음성 대역폭을 확장하기 위해 협대역 및 손실대역 관측정보를 이용하는 HMM 생성 방식으로 손실대역의 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행하는 방안을 제공한다.
도 2는 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도이다.
도 2에서 프레임기(201)는 샘플링 주파수가 16kHz인 광대역 음성 데이터를 입력받아 프레임 단위로 생성하고, 생성된 현재 프레임의 광대역 음성 데이터()를 각각 제1 관측정보 분석기(210)와 제2 관측정보 분석기(230)에 전송한다.
상기 제1 관측정보 분석기(210)은 전송받은 현재 프레임의 광대역 음성 데이터()에서 협대역 성분만 통과시키는 협대역 통과 필터(203)와, 협대역 음성 프레임 정보를 분석하여 협대역 관측 정보를 생성하는 협대역 관측정보 분석기(205)를 포함한다. 따라서 상기 협대역 관측 정보 분석기(210)는 전송받은 프레 임의 광대역 음성 데이터()를 협대역 성도 성분을 가리키는 관측정보()로 분석하여, 모든 프레임에 대한 협대역 관측정보({}를 협대역 관측정보 저장기(207)에 입력한다.
그리고 상기 제2 관측정보 분석기(230)은 전송받은 프레임의 광대역 음성 데이터()에서 손실대역 영역만 통과시키는 손실대역 통과 필터(209)와, 손실대역 음성 프레임 정보를 분석하여 손실대역 관측 정보를 생성하는 손실대역 관측정보 분석기(211)를 포함한다. 따라서 상기 협대역 관측 정보 분석기(230)는 전송받은 프레임의 광대역 음성 데이터()를 현재 프레임의 손실대역 성도 성분을 가리키는 관측정보()로 분석하여, 모든 프레임에 대한 손실대역 관측정보()를 손실대역 관측정보 저장기(213)에 입력한다.
도 2에서 HMM 파라미터 생성기(250)는 상기 협대역 관측정보({})와 상기 손실대역 관측정보()를 이용하여 음성 대역폭을 확장하기 위해, 상태 클러스터기(215)와, 혼합 클러스터기(217)와, HMM 파라미터 결정기(219)와, HMM 파라미터 재평가기(221)를 포함한다.
상기 상태 클러스터기(215)는 상기 저장된 손실대역 관측정보()를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리 관점에서 이웃하고 있는 손실대역 관측정보끼리 그룹화하여 복수의 상태 클러스터()로 클러스터링 한다. 그리고 혼합 클러스터기(217)는 상기 협대역의 관측정보({})를 K-means 클러스터링 알고리즘을 이용하여 복수의 혼합 클러스터()로 클러스터링 한다. 상기 K-means 클러스터링 알고리즘은 아래 도 4에서 설명하기로 한다.
상기와 같이 상태 클러스터기(215)는 손실대역 관측정보만을 클러스터링하고, 혼합 클러스터기(217)는 협대역 관측정보만을 클러스터링하는 방식은 HMM 상태와 코드벡터간의 일대일 대응을 반영하기 위한 것이다. 또한 이 클러스터링 방식으로 모델링 된 HMM은 종래에 비해 Spectral Distortion(이하 "SD")이 작게 나타난다. 여기서 SD는 주파수 확장 기술의 성능을 객관적으로 판단하는 도구로써 아래<수학식 4>와 같이 나타낸다.
상기 <수학식 4>에서 gest와 goig는 각각 HMM을 사용해서 예측된 여기 신호 이득과, 원래 음성의 이득을 가리킨다. 1/|Aest(ejw)|와 1/|Aorig(ejw)|는 각각 HMM을 사용하여 예측된 손실대역 성도 성분의 크기와, 원래 음성의 손실대역 성도 성분 크기를 정의한다. 상기 SD 값은 작을수록 HMM의 성능이 우수하다고 할 수 있다.
상기 HMM 파라미터 결정기(219)는 상기 상태 클러스터({})와 혼합 클러스터()를 이용하여 HMM 파라미터 초기 값()를 계산한다. HMM 재평가 기(221)는 상기 HMM 파라미터 초기 값()이 최적의 HMM 파라미터()인지 Baum-Welch 재평가 알고리즘을 사용하여 재평가 한다. 따라서 상기 HMM 재평가기(221)는 최적의 HMM 파라미터 값()으로 을 출력한다.
도 3은 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방법을 나타낸 순서도이다.
도 3의 301 단계에서 프레임기(201)는 샘플링 주파수가 16kHz인 광대역 음성 데이터를 입력받아 프레임 단위로 생성한다. 303 단계에서 제1 관측정보 분석기(210)는 전송받은 프레임 단위의 광대역 음성 데이터()를 분석하여 현재 프레임의 협대역 성도 성분을 가리키는 관측정보()를 생성한다. 그리고 305 단계에서 제2 관측정보 분석기(230)는 전송받은 프레임 단위의 광대역 음성 데이터()를 분석하여 현재 프레임의 손실대역 성도 성분을 가리키는 관측정보()를 생성한다. 307 단계에서 상태 클러스터기(215)는 상기 분석된 손실대역 관측정보()를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리 관점에서 이웃하고 있는 광대역 관측정보끼리 그룹화된 복수의 상태 클러스터()로 클러스터링 한다. 그리고 혼합 클러스터기(217)는 상기 협대역 관측정보({})를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리 관점에서 이웃하고 있는 협대역 관측정보끼리 그룹화된 복수의 혼합 클러스터()로 클러스터링 한다. 상기 K-means 클러스터링 알고리즘은 아래 도 4에서 설명하기로 한 다.
도 4는 도 3의 상태 클러스터링 및 혼합 클러스터링에서 수행되는 클러스터링 방법을 나타낸 순서도이다.
이하, 도 4에서 K-means 알고리즘이 상기 상태 클러스터기(311)와 혼합 클러스터기(313)에서 모두 적용 될 수 있도록 상태 클러스터기(311)와 상기 혼합 클러스터기(313)는 클러스터기라하고, 협대역 관측 정보와 손실대역 관측정보는 관측정보라 통칭하기로 한다.
도 4의 401 단계에서 클러스터기는 관측정보 저장기에 저장된 관측정보를 입력받는다. 403 단계에서 클러스터기는 상기 입력받은 관측정보들을 미리 정의된 클러스터의 개수()에 따라 각 클러스터에 유클리디안 거리 관점에서 이웃하고 있는 관측정보들을 그룹화하여, 상기 클러스터에 동일한 개수의 관측정보들이 포함되도록 클러스터링한다. 그리고 각 클러스터에 포함된 관측정보들의 평균값(mean)을 계산하여 총 개의 코드벡터들로 구성된 초기 클러스터링 코드북을 생성한다. 405 단계에서 Lloyd클러스터기는 이전 클러스터링 코드북의 코드벡터 중 가장 인접한 코드벡터를 갖는 관측정보들을 아래 <수학식 5>와 같이 다시 클러스터링한다. 따라서 각 클러스터에 포함된 관측정보들의 개수는 다르게 생성된다. 그리고 405 단계에서 Lloyd 클러스터기는 각 클러스터에 포함된 관측정보들의 평균 값을 계산하여 새로운 클러스터링 코드북()를 생성한다.
상기 <수학식 5>에서 와 는 각각 이전 코드북의 I번째와 j번째 클러스터를 가리키는 코드벡터이고, 는 관측정보, 그리고 는 현재의 I번째 클러스터에 포함된 관측정보들의 집합이다.
도 4의 409 단계에서 클러스터기는 각 클러스터에 포함된 관측 정보들의 이전 왜곡 값과 현재 왜곡 값을 이용하여 아래<수학식 7>의 종료 조건을 만족하는지 판단한다.
상기 409 단계에서 상기 <수학식 7>의 종료 조건을 만족하는 경우, 411 단계로 진행한다. 상기 411 단계에서 클러스터기는 아래 <수학식 8>과 같은 클러스터링 정보를 출력한다.
상기 409 단계에서 종료 조건을 만족하지 않는 경우, 현재의 왜곡 값과 클러스터링 코드북을 저장하여 다시 405 단계로 진행한다. 그리고 상기 저장한 현재의 왜곡 값과 클러스터링 코드북은 다음 클러스터링 수행시 이전 왜곡 값 및 이전 클러스터링 코드북으로 적용하여 사용한다.
다시 도 3의 HMM 파라미터를 생성하는 방법을 설명하기로 한다.
도 3의 311 단계에서 HMM 파라미터 결정기(219)는 상기 상태 클러스터 ()와 혼합 클러스터 ()에서 출력된 클러스터링 정보를 이용하여 HMM 파라미터의 초기 값()를 계산한다. 상기 초기 값() 중, 상태 초기 확률()은 상태 에 있는 관측정보 개수를 총 관측정보 개수로 나누어서 계산한다. 그리고 상태 천이 확률()는 상태 를 포함함한 모든 상태 로 천이하는 관측정보 개수를 상태 로부터 가 아닌 다른 상태로 천이하는 총관측정보 개수로 나누어서 계산한다. 또한 상태 에서의 관측정보 확률을 계산하기 위해서 사용되는 는 상태에서 번째 혼합을 가지는 관측정보 개수를 상태에 있는 총 관측정보 개수로 나누어서 계산한다. 는 상태이고, 번째 혼합에 속하는 관측정보의 번째 벡터 성분, 들을 모두 더한 결과를 상태, 번째 혼합에 속하는 총 관측정보 개수로 나누어서 계산한다. 마지막으로 는 아래 <수학식 9>를 이용하여 계산한다.
상기 311 단계에서 HMM 파라미터의 초기 값을 계산하는 과정에서, 관측정보로 협대역 관측정보 뿐만 아니라 손실대역 관측정보도 사용되므로 관측정보 벡터는 아래 <수학식 10>과 같이 나타낼 수 있다.
상기 <수학식 10>을 이용하여 상기 <수학식 2>는 아래 <수학식 11>로 변환된다.
상기 <수학식 11>에서 손실대역 관측정보 특성을 반영하는 우변 항은 HMM 상태와 코드벡터간의 일대일 대응을 반영하는 제안된 클러스터링 기법에 의하여 각각의 상태에 대해서 하나의 평균 값과 분산 값을 갖는다. 따라서 상기 <수학식 11>은 아래 <수학식 12>와 같이 변환이 가능하다. 이와 같이 확률이 혼합 성 분에 대해 독립적이다. 즉, 각 상태에 대해 평균 값과 분산 값이 하나이므로 HMM 파라미터의 초기 값을 결정하는 과정에서 계산량을 줄일 수 있다.
다음으로 도 3의 313 단계에서 HMM 파라미터 재평가기(221)는 협대역 관측정보({}), 손실대역 관측정보({})와 초기 값()을 Baum-Welch 재평가 알고리즘을 사용하여 최적의 ()값으로 을 출력한다. 상기 313 단계에서 수행되는 HMM 파라미터의 재평가 과정은 아래 도 5을 참고하여 상세히 설명하기로 한다.
도 5은 도 3에서 HMM 파라미터의 재평가 방법을 나타낸 순서도이다.
도 5의 501 단계에서 HMM 파라미터 재평가기(221)는 상기 도 3의 311 단계에서 출력된 HMM 파라미터 초기 값을 입력받는다. 503 단계에서 HMM 재평가기(221)는 새로운 HMM 파라미터()을 재평가하기 위해 상기 이전의 HMM 파라미터 값 ()(초기 수행 시, 상기 501 단계에서 입력받은 초기 값()) 뿐만 아니라 협대역 관측정보({}), 손실대역 관측정보({})를 Baum-Welch 재평가 알고리즘에 적용하여 HMM 파라미터를 재평가 한다. 그리고 상기 적용되는 관측정보 확률은 상기 <수학식 11>에서 상기 <수학식 12>로 변환이 가능하므로, 상기 <수학식 12>의 협대역 관측정보 확률 및 손실대역 관측정보 확률 결과가 Baum-Welch 재평가 알고리즘에 적용되어 계산량을 감소할 수 있다.
도 5의 505 단계에서 HMM 파라미터 재평가기(221)는 새로운 HMM 파라미터()를 이용하여 새로운 HMM 파라미터 확률()을 계산한다. 그리고 507 단계에서 HMM 파라미터 재평가기(221)는 아래 <수학식 13>의 종료조건을 만족하면 상기 새로운 HMM 모델()을 최적의 HMM 파라미터라고 판단하여 509 단계로 진행하여 재평가된 HMM파라미터를 출력한다. 반대로, 507 단계에서 HMM 재평가기(211)는 종료조건을 만족하지 않으면 503 단계로 진행하여 다시 HMM 파라미터 재평가를 수행한다.
본 발명은 음성 대역폭을 확장하기 위해 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방식으로 손실대역의 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행할 수 있다. 따라서 본 발명은 광대역 성도성분 코드북을 구성하는 각각의 코드벡터와 HMM 상태간의 일대일 대응을 유지하고, 코드벡터 수가 불필요하게 증가하는 것을 방지함과 동시에 계산량을 감소시킬 수 있다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상 설명한 바와 같이 본 발명에 의하면 음성 대역폭을 확장하기 위해, 손실대역 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행하여, HMM 코드북을 구성하는 각각의 코드벡터와 HMM 상태간의 일대일 대응을 유지하고, 코드벡터 수가 불필요하게 증가하는 것을 방지함과 동시에 계산량을 감소시킬 수 있다.
Claims (8)
- 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 장치에 있어서,상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터기와,상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터기와,상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하고, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 생성기를 포함함을 특징으로 하는 HMM 파라미터 생성 장치.
- 제 1 항에 있어서,상기 상태 클러스터기는군집분석 알고리즘을 이용하여 상기 손실대역 관측정보를 상기 상태 클러스터링함을 특징으로 하는 HMM 파라미터 생성 장치.
- 제 1 항에 있어서,상기 혼합 클러스터기는군집분석 알고리즘을 이용하여 상기 협대역 관측정보를 상기 혼합 클러스터링함을 특징으로 하는 HMM 파라미터 생성 장치.
- 제 2 항 또는 제 3 항에 있어서,상기 군집분석 알고리즘은K-means 알고리즘을 이용함을 특징으로 하는 HMM 파라미터 생성 장치.
- 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 방법에 있어서,상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터링 과정과,상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터링 과정과,상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하는 HMM 파라미터 초기 값 결정 과정과,상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 재평가 과정을 포함함을 특징으로 하는 HMM 파라미터 생성 방법.
- 제 5 항에 있어서,상기 상태 클러스터링 과정은군집분석 알고리즘을 이용하여 상기 손실대역 관측정보를 상기 상태 클러스터링함을 특징으로 하는 HMM 파라미터 생성 방법.
- 제 5 항에 있어서,상기 혼합 클러스터링 과정은군집분석 알고리즘을 이용하여 상기 협대역 관측정보를 상기 혼합 클러스터링함을 특징으로 하는 HMM 파라미터 생성 방법.
- 제 6 항 또는 제 7 항에 있어서,상기 군집분석 알고리즘은K-means 알고리즘을 이용함을 특징으로 하는 HMM 파라미터 생성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060097970A KR20080032348A (ko) | 2006-10-09 | 2006-10-09 | 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060097970A KR20080032348A (ko) | 2006-10-09 | 2006-10-09 | 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080032348A true KR20080032348A (ko) | 2008-04-15 |
Family
ID=39533118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060097970A KR20080032348A (ko) | 2006-10-09 | 2006-10-09 | 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080032348A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011128723A1 (en) * | 2010-04-12 | 2011-10-20 | Freescale Semiconductor, Inc. | Audio communication device, method for outputting an audio signal, and communication system |
-
2006
- 2006-10-09 KR KR1020060097970A patent/KR20080032348A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011128723A1 (en) * | 2010-04-12 | 2011-10-20 | Freescale Semiconductor, Inc. | Audio communication device, method for outputting an audio signal, and communication system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
Anastasakos et al. | Speaker adaptive training: A maximum likelihood approach to speaker normalization | |
KR100924399B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP3742236B2 (ja) | 音声認識のための隠れマルコフ・モデルの適応技術 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
EP2017832A1 (en) | Voice quality conversion system | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
Stuttle | A Gaussian mixture model spectral representation for speech recognition | |
JP4817250B2 (ja) | 声質変換モデル生成装置及び声質変換システム | |
KR100937101B1 (ko) | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 | |
KR101026632B1 (ko) | 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체 | |
US7707029B2 (en) | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition | |
EP1995723A1 (en) | Neuroevolution training system | |
JP2006521576A (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
Bauer et al. | A statistical framework for artificial bandwidth extension exploiting speech waveform and phonetic transcription | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
Chaudhari et al. | Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition | |
US7454338B2 (en) | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition | |
JP3039623B2 (ja) | 音声認識装置 | |
KR20080032348A (ko) | 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
JP3144341B2 (ja) | 音声認識装置 | |
Orphanidou et al. | Voice morphing using the generative topographic mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |