[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20080032348A - 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 - Google Patents

음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 Download PDF

Info

Publication number
KR20080032348A
KR20080032348A KR1020060097970A KR20060097970A KR20080032348A KR 20080032348 A KR20080032348 A KR 20080032348A KR 1020060097970 A KR1020060097970 A KR 1020060097970A KR 20060097970 A KR20060097970 A KR 20060097970A KR 20080032348 A KR20080032348 A KR 20080032348A
Authority
KR
South Korea
Prior art keywords
hmm
observation information
state
clustering
cluster
Prior art date
Application number
KR1020060097970A
Other languages
English (en)
Inventor
구정우
파벨 마르티노비치
김석호
김재범
안철용
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060097970A priority Critical patent/KR20080032348A/ko
Publication of KR20080032348A publication Critical patent/KR20080032348A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 대역폭의 확장에 적용되는 히든 마코브 모델(Hidden Markov Model : 이하 "HMM") 파라미터를 생성하기 위한 장치 및 방법에 대한 것으로, 특히 협대역 관측정보(성도 성분 : Vocal Tract)를 주파수 확장할 때 사용되는 광대역 관측정보 코드북을 설계함에 있어 필요한 HMM 파라미터를 생성하기 위한 장치 및 방법에 대한 것이다.
그리고 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 장치에 있어서, 상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터기와, 상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터기와, 상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하고, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 생성기를 포함한다.
따라서 본 발명은 음성 대역폭을 확장하기 위해, 손실대역 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행하여, HMM 코드북을 구성하는 각각의 코드벡터와 HMM 상태 간의 일대일 대응을 유지하고, 코드벡터 수가 불필요하게 증가하는 것을 방지함과 동시에 계산량을 감소시킬 수 있다.
주파수 확장, HMM, 상태 클러스터, 혼합 클러스터, 손실대역 관측정보, 협대역 관측정보.

Description

음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터 생성 장치 및 방법{HIDDEN MARKOV MODEL PARAMETER CREATION APPARATUS AND METHOD FOR EXTENDING SPEECH BANDWIDTH}
도 1은 종래 협대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도,
도 2는 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도,
도 3은 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방법을 나타낸 순서도,
도 4는 도 3의 상태 클러스터링 및 혼합 클러스터링에서 수행되는 클러스터링 방법을 나타낸 순서도,
도 5은 도 3에서 HMM 파라미터의 재평가 방법을 나타낸 순서도.
본 발명은 음성 대역폭의 확장에 적용되는 히든 마코브 모델(Hidden Markov Model : 이하 "HMM") 파라미터를 생성하기 위한 장치 및 방법에 대한 것으로, 특히 협대역 관측정보(성도 성분 : Vocal Tract)를 주파수 확장할 때 사용되는 광대역 관측정보 코드북을 설계함에 있어 필요한 HMM 파라미터를 생성하기 위한 장치 및 방법에 대한 것이다.
일반적으로 사람의 음성 신호는 8kHz 이상의 주파수 범위를 갖지만, 8kHz의 주파수 대역폭으로도 원음에 가까운 특성을 유지 할 수 있다. 이러한 8kHz의 주파수 대역폭을 갖는 음성 신호를 광대역(Wide-Band) 음성 신호라고 한다.
그러나 상기 광대역 음성 신호가 300~3400Hz의 주파수 대역폭을 갖는 전화망을 통과하는 동안, 전화망의 고유 주파수 대역폭으로 인해 음성 신호의 주파수 대역폭이 300~3400Hz 이내로 한정된다. 이러한 300~3400Hz의 주파수 대역폭을 갖는 음성 신호를 협대역(Narraw-Band) 음성 신호라고 한다. 상기 협대역 음성 신호에는 3400Hz~8kHz의 손실대역(Missing-Band) 음성 신호가 존재하지 않으므로 명료도(intelligibility)가 광대역 음성 신호에 비해 저하된다. 따라서 협대역 음성 신호를 수신하는 수신자는 명료도가 저하된 음성을 청취하게 된다. 이러한 문제를 해결하기 위해 협대역 음성 신호를 사용하여 광대역 음성 신호로 복구하는 주파수 확장 기술(bandwidth extension technology)이 연구되고 있다.
상기 주파수 확장 기술의 일반적인 구현 과정은 다음과 같다.
먼저, 협대역 음성 신호를 분석하여 여기(excitation) 신호와 성도(vocal tract) 성분으로 구분한다. 참고로 상기 여기 신호는 허파로부터 유발되는 주파수 스펙트럼의 크기가 전체 주파수 대역에 걸쳐 일정한 소리에 대응되며, 성도를 거치 면서 구체적인 음색을 갖는 음성 신호로 전환된다. 상기 성도 성분은 주파수에 따른 음성의 스펙트럼 크기 정보와 대응된다.
다음으로 상기 협대역 여기 신호에 대해서 업-샘플링(Up-Sampling)을 통한 스펙트럴-폴딩(Spectral-Folding) 기법, 웨이브 정류기(Wave Rectifier) 함수를 이용한 비선형(Non-Linear) 프로세싱 기법, 잡음 변조(modulation) 기법들 중 하나를 적용하여 손실대역 여기 신호를 생성한다. 또한 상기 협대역 성도 성분에 대해서 벡터 양자화, 가우시안 혼합 모델(Gaussian Mixture Model : 이하 "GMM" ), HMM 기법들 중 하나를 적용하여 생성된 광대역 성도 성분 코드북으로부터 광대역 성도 성분을 추출한다.
마지막으로 상기한 과정을 통해 만들어진 손실대역 여기 신호와 광대역 성도 성분을 합성하여 손실대역 음성 신호를 생성한다. 이때, 여기 신호는 손실대역만 존재하므로 광대역 성도 성분을 사용해도 손실대역 음성 신호만 생성된다. 최종적으로 수신한 협대역 음성 신호와 생성한 손실대역 음성 신호를 더해서 광대역 음성 신호를 생성한다.
이하, 상기 주파수 확장 기술의 구현 과정에서 HMM 기법을 적용하여 광대역 성도 성분 코드북을 생성하는 방식을 설명하기로 한다.
주파수 확장 기술에서 협대역 성도 성분으로부터 광대역 성도 성분을 추출하기 위해 광대역 성도 성분 코드북을 생성한다. 이때 상기 광대역 성도 성분 코드북은 HMM을 적용하여 통계적인 접근 방식으로 생성된 손실대역 성도 성분과 종래의 협대역 음성 신호로부터 추출한 협대역 성도 성분의 조합으로 구성된다. 즉, HMM의 사용 목적은 협대역 성도 성분을 관측했을 때, 통계적인 HMM 파라미터(
Figure 112006072794144-PAT00001
)를 이용하여 손실대역의 성도 성분을 예측하는 데 있다. 여기서
Figure 112006072794144-PAT00002
는 HMM의 파라미터를 정의하기 위해서 사용되며, 아래 <수학식 1>과 같이 계산된다.
Figure 112006072794144-PAT00003
상기 <수학식 1>에서
Figure 112006072794144-PAT00004
는 상태
Figure 112006072794144-PAT00005
의 초기 확률들의 집합으로써 HMM이 상태
Figure 112006072794144-PAT00006
에 처음 머무를 확률을 나타내고,
Figure 112006072794144-PAT00007
Figure 112006072794144-PAT00008
개의 한정된 값을 갖는다고 가정한다. 여기서 HMM 상태
Figure 112006072794144-PAT00009
는 각각 다른 손실대역 성도 성분을 갖는 음소(Phoneme)들을 표현하고 있으며, 광대역 성도 성분 코드북을 구성하고 있는 코드벡터들과 일대일 대응(One-To-One Mapping)이 된다. 그리고
Figure 112006072794144-PAT00010
는 상태 천이 확률들의 집합이고,
Figure 112006072794144-PAT00011
는 프레임 인덱스,
Figure 112006072794144-PAT00012
는 마지막 프레임을 가리킨다.
Figure 112006072794144-PAT00013
는 상태
Figure 112006072794144-PAT00014
에 대한 현재 순간의 관측 벡터 확률들의 집합으로써, 아래 <수학식 2>와 같이 GMM으로 계산된다.
Figure 112006072794144-PAT00015
상기 <수학식 2>에서
Figure 112006072794144-PAT00016
는 혼합 성분(Mixture Component)을 나타내고,
Figure 112006072794144-PAT00017
는 관측 벡터 성분을 나타낸다. 즉, <수학식 2>는
Figure 112006072794144-PAT00018
개의 혼합 성분과
Figure 112006072794144-PAT00019
개의 벡터 차수(Dimension)로 표현된다. 그리고
Figure 112006072794144-PAT00020
는 상태
Figure 112006072794144-PAT00021
에서 혼합 성분
Figure 112006072794144-PAT00022
의 가중치(Weight)를 나타낸다.
Figure 112006072794144-PAT00023
Figure 112006072794144-PAT00024
는 각각 상태가
Figure 112006072794144-PAT00025
이고 혼합성분이
Figure 112006072794144-PAT00026
인 관측 벡터의 평균 값(Mean)과 공분산(Covariance) 행렬을 나타낸다. 또한
Figure 112006072794144-PAT00027
는 관측 벡터의
Figure 112006072794144-PAT00028
번째 성분,
Figure 112006072794144-PAT00029
Figure 112006072794144-PAT00030
번째 성분의 평균 값,
Figure 112006072794144-PAT00031
는 d번째 성분의 분산 값을 나타낸다.
또한 생성된 HMM 파라미터(
Figure 112006072794144-PAT00032
)가 정확 할 수록 예측되는 손실대역의 성도 성분에 대한 오차가 작으므로 HMM 파라미터(
Figure 112006072794144-PAT00033
)의 정확도를 높이는 것이 중요하다. 상기 HMM 파라미터(
Figure 112006072794144-PAT00034
)의 정확도를 높이기 위해, 최적의 HMM 파라미터(
Figure 112006072794144-PAT00035
)를 아래 <수학식 3>과 같이 계산한다.
Figure 112006072794144-PAT00036
상기 <수학식 3>에서
Figure 112006072794144-PAT00037
Figure 112006072794144-PAT00038
번째 프레임까지의 관측 시퀀스 정보를 나타내며, HMM 파라미터를 생성하기 위해 사용된다. 그리고 상기 최적의 HMM 파라미터(
Figure 112006072794144-PAT00039
)는 Baum-Welch 재평가(re-estimation) 알고리즘에 의해 계산될 수 있다. 상기 Baum-Welch 재평가 알고리즘은 반복적인(iterative) 과정을 거쳐서 <수학식 3>의 확률 값이 국부적으로(locally) 최대 값을 가지도록 HMM 파라미터(
Figure 112006072794144-PAT00040
)를 선택하는 방식을 사용한다. 따라서 <수학식 3>의 확률 값이 전체적인(global) 최대 값을 값기 위해서는 HMM 파라미터를 생성하는 과정에서 HMM 파라미터(
Figure 112006072794144-PAT00041
)의 초기 값을 결정하는 방법이 중요하다.
이하, 광대역 성도 성분 코드북을 생성하기 위해 HMM 파라미터의 초기 값(
Figure 112006072794144-PAT00042
)를 결정 한 후, 상기 결정된 HMM 파라미터의 초기 값(
Figure 112006072794144-PAT00043
)이 최적의 HMM 파라미터(
Figure 112006072794144-PAT00044
)인지 재평가하여 HMM 파라미터를 생성하는 방식을 설명하기로 한다.
도 1은 종래 협대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도이다.
도 1의 프레임기(101)는 샘플링 주파수가 16kHz인 광대역 음성 데이터를 프레임 단위로 생성하고, 현재 프레임의 광대역 음성 데이터(
Figure 112006072794144-PAT00045
)를 협대역 통과 필터(102)에 전송한다. 상기 협대역 통과 필터(102)는 협대역 음성 데이터만 추출하여 관측정보 분석기(103)에 전송한다. 상기 협대역 관측정보 분석기(103)는 전송 받은 프레임의 협대역 음성 데이터를 현재 프레임의 협대역 성도 성분을 가리키는 관측정보(
Figure 112006072794144-PAT00046
)로 분석하여, 협대역 관측정보 저장기(105)에 저장한다. 상기 협대역 관측정보 저장기(105)는 모든 프레임에 대한 협대역 관측정보({
Figure 112006072794144-PAT00047
})를 저장한다.
도 1에서 HMM 파라미터 생성기(150)는 상기 저장된 협대역 관측정보({
Figure 112006072794144-PAT00048
})를 이용하여 HMM 파라미터를 생성하기 위해, 상태 클러스터기(107)와, 혼합 클러스터기(109)와, HMM 파라미터 결정기(111)와, HMM 파라미터 재평가기(113)를 포함한다.
상기 상태 클러스터기(107)는 상기 협대역 관측정보 저장기(105)에 저장된 협대역 관측정보({
Figure 112006072794144-PAT00049
})를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리(Euclidian Distance) 관점에서 서로 이웃하고 있는 협대역 관측정보들을 그룹화하도록하여 복수의 상태 클러스터(
Figure 112006072794144-PAT00050
)로 클러스터링 한다. 그리고 혼합 클러스터기(109)는 상기 복수의 상태 클러스터(
Figure 112006072794144-PAT00051
)에서 각 상태 클러스터에 포함되는 협대역 관측정보({
Figure 112006072794144-PAT00052
})를 K-means 알고리즘을 이용하여 혼합 클러스터(
Figure 112006072794144-PAT00053
)로 클러스터링한다. 따라서 상기 상태 클러스터기(107)와 혼합 클러스터기(109)는 유사한 협대역 성도 성분을 갖는 프레임들을 하나의 HMM 상태로 그룹화할 수 있다. 한편, 상기 상태 클러스터기(107)와 혼합 클러스터기(109)에서 적용되는 K-means 클러스터링 알고리즘은 도 4에서 상세히 설명하기로 한다.
상기 HMM 파라미터 결정기(111)는 상기 상태 클러스터({
Figure 112006072794144-PAT00054
})와 혼합 클러스터({
Figure 112006072794144-PAT00055
})를 이용하여 HMM 파라미터의 초기 값(
Figure 112006072794144-PAT00056
)를 계산한다. 상기 초기 값(
Figure 112006072794144-PAT00057
)의 구성 성분은 상기 <수학식 1>과 동일하며, 상세한 설명은 후술하기로 한다. HMM 재평가기(113)는 상기 초기 값(
Figure 112006072794144-PAT00058
)이 최적의 HMM 파라미터(
Figure 112006072794144-PAT00059
)인지 상기 Baum-Welch 재평가 알고리즘을 사용하여 재평가 한다. 따라서 상기 HMM 재평가기(113)은 최적의
Figure 112006072794144-PAT00060
(
Figure 112006072794144-PAT00061
)값으로 {
Figure 112006072794144-PAT00062
}을 출력한다.
상기 협대역 관측정보를 이용하여 HMM 파라미터를 생성하는 종래 방식은 유사한 협대역의 성도 성분을 갖는 프레임들을 하나의 HMM 상태로 그룹화하지만 HMM 상태를 표현하기 위해서 손실대역의 성도 성분을 전혀 고려하지 않는다. 따라서 종래 방식은 HMM 상태들이 다양한 음소들을 표현하기에는 한계가 있다. 이런 문제를 해결하기 위하여 협대역 및 손실광대역 관측정보들을 모두 이용하여 HMM 파라미터를 생성하는 방식이 제안되었다.
상기 협대역 및 손실대역 관측정보들을 이용하여 HMM 파라미터를 생성하는 방식은 협대역의 성도 성분을 가리키는 관측정보 ({
Figure 112006072794144-PAT00063
})와 손실대역의 성도 성분을 가리키는 관측정보(
Figure 112006072794144-PAT00064
)가 동시에 상태 클러스터기와 혼합 클러스터기에 입력될 수 있도록 구현된다. 따라서 HMM 재평가를 수행 할 때, 상기 협대역 관측정보({
Figure 112006072794144-PAT00065
}), 손실대역 관측정보(
Figure 112006072794144-PAT00066
)와 HMM 파라미터의 초기 값(
Figure 112006072794144-PAT00067
)을 Baum-Welch 재평가 알고리즘을 사용하여 구해진 최적의 HMM 파라미터 (
Figure 112006072794144-PAT00068
)값으로
Figure 112006072794144-PAT00069
을 출력한다.
상기 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방식은 유사한 광대역 성도 성분을 갖는 프레임들을 하나의 HMM 상태로 그룹하는 것으로써 HMM 상태들이 다양한 음소들로 표현될 수 있기 때문에 협대역만을 이용하는 경우 보다 우수한 성능을 갖는다.
그러나 상기 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 종래 방식은 상태 클러스터링 및 혼합 클러스터링을 협대역 및 광대역 관측정보에 대해 모두 적용함으로써 손실대역 관측정보가 거의 동일한 프레임일지라도 그것들의 협대역 관측정보가 다르면 서로 다른 혼합 상태로 할당되어 코드북의 코드벡터 수를 불필요하게 증가시킬 수 있다. 즉, 실제로 HMM 상태 수는 손실대역 성도 성분 특성을 표현하는 개수에 의존한다. 따라서, 상기 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방식은 HMM 상태와 광대역 성도 성분 코드북의 코드벡터간의 일대다 대응(One-To-Many Mapping)이 된다. 그리고 손실대역 성도 성분들을 관측정보로 사용하기 때문에 협대역만 이용하는 경우에 비해 관측정보 벡터의 차수가 증가하고, 이로인해 Baum-Welch 재평가 계산식을 수행할 때, 계산량이 상당히 증가되는 문제점이 발생된다.
본 발명은 음성 대역폭의 확장에 적용되는 HMM 파라미터를 생성하기 위한 장치 및 방법을 제공한다.
또한 본 발명은 협대역 관측정보와 손실대역 관측정보를 이용하되 코드북의 코드벡터 수를 줄일 수 있는 HMM 파라미터 생성 장치 및 방법을 제공한다.
따라서 본 발명은 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 장치에 있어서, 상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터기와, 상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터기와, 상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하고, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 생성기를 포함한다.
또한 본 발명은 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 방법에 있어서, 상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터링 과정과, 상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터링 과정과, 상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하는 HMM 파라미터 초기 값 결정 과정과, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 재평가 과정을 포함한다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한 다. 또한 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 이용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다.
먼저 본 발명의 기본 개념을 설명하면, 본 발명은 음성 대역폭을 확장하기 위해 협대역 및 손실대역 관측정보를 이용하는 HMM 생성 방식으로 손실대역의 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행하는 방안을 제공한다.
도 2는 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 장치의 구성을 나타낸 블록도이다.
도 2에서 프레임기(201)는 샘플링 주파수가 16kHz인 광대역 음성 데이터를 입력받아 프레임 단위로 생성하고, 생성된 현재 프레임의 광대역 음성 데이터(
Figure 112006072794144-PAT00070
)를 각각 제1 관측정보 분석기(210)와 제2 관측정보 분석기(230)에 전송한다.
상기 제1 관측정보 분석기(210)은 전송받은 현재 프레임의 광대역 음성 데이터(
Figure 112006072794144-PAT00071
)에서 협대역 성분만 통과시키는 협대역 통과 필터(203)와, 협대역 음성 프레임 정보를 분석하여 협대역 관측 정보를 생성하는 협대역 관측정보 분석기(205)를 포함한다. 따라서 상기 협대역 관측 정보 분석기(210)는 전송받은 프레 임의 광대역 음성 데이터(
Figure 112006072794144-PAT00072
)를 협대역 성도 성분을 가리키는 관측정보(
Figure 112006072794144-PAT00073
)로 분석하여, 모든 프레임에 대한 협대역 관측정보({
Figure 112006072794144-PAT00074
}를 협대역 관측정보 저장기(207)에 입력한다.
그리고 상기 제2 관측정보 분석기(230)은 전송받은 프레임의 광대역 음성 데이터(
Figure 112006072794144-PAT00075
)에서 손실대역 영역만 통과시키는 손실대역 통과 필터(209)와, 손실대역 음성 프레임 정보를 분석하여 손실대역 관측 정보를 생성하는 손실대역 관측정보 분석기(211)를 포함한다. 따라서 상기 협대역 관측 정보 분석기(230)는 전송받은 프레임의 광대역 음성 데이터(
Figure 112006072794144-PAT00076
)를 현재 프레임의 손실대역 성도 성분을 가리키는 관측정보(
Figure 112006072794144-PAT00077
)로 분석하여, 모든 프레임에 대한 손실대역 관측정보(
Figure 112006072794144-PAT00078
)를 손실대역 관측정보 저장기(213)에 입력한다.
도 2에서 HMM 파라미터 생성기(250)는 상기 협대역 관측정보({
Figure 112006072794144-PAT00079
})와 상기 손실대역 관측정보(
Figure 112006072794144-PAT00080
)를 이용하여 음성 대역폭을 확장하기 위해, 상태 클러스터기(215)와, 혼합 클러스터기(217)와, HMM 파라미터 결정기(219)와, HMM 파라미터 재평가기(221)를 포함한다.
상기 상태 클러스터기(215)는 상기 저장된 손실대역 관측정보(
Figure 112006072794144-PAT00081
)를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리 관점에서 이웃하고 있는 손실대역 관측정보끼리 그룹화하여 복수의 상태 클러스터(
Figure 112006072794144-PAT00082
)로 클러스터링 한다. 그리고 혼합 클러스터기(217)는 상기 협대역의 관측정보({
Figure 112006072794144-PAT00083
})를 K-means 클러스터링 알고리즘을 이용하여 복수의 혼합 클러스터(
Figure 112006072794144-PAT00084
)로 클러스터링 한다. 상기 K-means 클러스터링 알고리즘은 아래 도 4에서 설명하기로 한다.
상기와 같이 상태 클러스터기(215)는 손실대역 관측정보만을 클러스터링하고, 혼합 클러스터기(217)는 협대역 관측정보만을 클러스터링하는 방식은 HMM 상태와 코드벡터간의 일대일 대응을 반영하기 위한 것이다. 또한 이 클러스터링 방식으로 모델링 된 HMM은 종래에 비해 Spectral Distortion(이하 "SD")이 작게 나타난다. 여기서 SD는 주파수 확장 기술의 성능을 객관적으로 판단하는 도구로써 아래<수학식 4>와 같이 나타낸다.
Figure 112006072794144-PAT00085
상기 <수학식 4>에서 gest와 goig는 각각 HMM을 사용해서 예측된 여기 신호 이득과, 원래 음성의 이득을 가리킨다. 1/|Aest(ejw)|와 1/|Aorig(ejw)|는 각각 HMM을 사용하여 예측된 손실대역 성도 성분의 크기와, 원래 음성의 손실대역 성도 성분 크기를 정의한다. 상기 SD 값은 작을수록 HMM의 성능이 우수하다고 할 수 있다.
상기 HMM 파라미터 결정기(219)는 상기 상태 클러스터({
Figure 112006072794144-PAT00086
})와 혼합 클러스터(
Figure 112006072794144-PAT00087
)를 이용하여 HMM 파라미터 초기 값(
Figure 112006072794144-PAT00088
)를 계산한다. HMM 재평가 기(221)는 상기 HMM 파라미터 초기 값(
Figure 112006072794144-PAT00089
)이 최적의 HMM 파라미터(
Figure 112006072794144-PAT00090
)인지 Baum-Welch 재평가 알고리즘을 사용하여 재평가 한다. 따라서 상기 HMM 재평가기(221)는 최적의 HMM 파라미터 값(
Figure 112006072794144-PAT00091
)으로
Figure 112006072794144-PAT00092
을 출력한다.
도 3은 본 발명의 실시 예에 따라 협대역 관측정보 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방법을 나타낸 순서도이다.
도 3의 301 단계에서 프레임기(201)는 샘플링 주파수가 16kHz인 광대역 음성 데이터를 입력받아 프레임 단위로 생성한다. 303 단계에서 제1 관측정보 분석기(210)는 전송받은 프레임 단위의 광대역 음성 데이터(
Figure 112006072794144-PAT00093
)를 분석하여 현재 프레임의 협대역 성도 성분을 가리키는 관측정보(
Figure 112006072794144-PAT00094
)를 생성한다. 그리고 305 단계에서 제2 관측정보 분석기(230)는 전송받은 프레임 단위의 광대역 음성 데이터(
Figure 112006072794144-PAT00095
)를 분석하여 현재 프레임의 손실대역 성도 성분을 가리키는 관측정보(
Figure 112006072794144-PAT00096
)를 생성한다. 307 단계에서 상태 클러스터기(215)는 상기 분석된 손실대역 관측정보(
Figure 112006072794144-PAT00097
)를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리 관점에서 이웃하고 있는 광대역 관측정보끼리 그룹화된 복수의 상태 클러스터(
Figure 112006072794144-PAT00098
)로 클러스터링 한다. 그리고 혼합 클러스터기(217)는 상기 협대역 관측정보({
Figure 112006072794144-PAT00099
})를 K-means 클러스터링 알고리즘을 이용하여 유클리디안 거리 관점에서 이웃하고 있는 협대역 관측정보끼리 그룹화된 복수의 혼합 클러스터(
Figure 112006072794144-PAT00100
)로 클러스터링 한다. 상기 K-means 클러스터링 알고리즘은 아래 도 4에서 설명하기로 한 다.
도 4는 도 3의 상태 클러스터링 및 혼합 클러스터링에서 수행되는 클러스터링 방법을 나타낸 순서도이다.
이하, 도 4에서 K-means 알고리즘이 상기 상태 클러스터기(311)와 혼합 클러스터기(313)에서 모두 적용 될 수 있도록 상태 클러스터기(311)와 상기 혼합 클러스터기(313)는 클러스터기라하고, 협대역 관측 정보와 손실대역 관측정보는 관측정보라 통칭하기로 한다.
도 4의 401 단계에서 클러스터기는 관측정보 저장기에 저장된 관측정보를 입력받는다. 403 단계에서 클러스터기는 상기 입력받은 관측정보들을 미리 정의된 클러스터의 개수(
Figure 112006072794144-PAT00101
)에 따라 각 클러스터에 유클리디안 거리 관점에서 이웃하고 있는 관측정보들을 그룹화하여, 상기 클러스터에 동일한 개수의 관측정보들이 포함되도록 클러스터링한다. 그리고 각 클러스터에 포함된 관측정보들의 평균값(mean)을 계산하여 총
Figure 112006072794144-PAT00102
개의 코드벡터들로 구성된 초기 클러스터링 코드북을 생성한다. 405 단계에서 Lloyd클러스터기는 이전 클러스터링 코드북의 코드벡터 중 가장 인접한 코드벡터를 갖는 관측정보들을 아래 <수학식 5>와 같이 다시 클러스터링한다. 따라서 각 클러스터에 포함된 관측정보들의 개수는 다르게 생성된다. 그리고 405 단계에서 Lloyd 클러스터기는 각 클러스터에 포함된 관측정보들의 평균 값을 계산하여 새로운 클러스터링 코드북(
Figure 112006072794144-PAT00103
)를 생성한다.
Figure 112006072794144-PAT00104
상기 <수학식 5>에서
Figure 112006072794144-PAT00105
Figure 112006072794144-PAT00106
는 각각 이전 코드북의 I번째와 j번째 클러스터를 가리키는 코드벡터이고,
Figure 112006072794144-PAT00107
는 관측정보, 그리고
Figure 112006072794144-PAT00108
는 현재의 I번째 클러스터에 포함된 관측정보들의 집합이다.
407 단계에서 클러스터기는 아래 <수학식 6>에서 새로운 클러스터링 코드북(
Figure 112006072794144-PAT00109
)과
Figure 112006072794144-PAT00110
를 이용하여 각 클러스터에 포함된 관측 정보들의 왜곡(Distortion) 값(
Figure 112006072794144-PAT00111
)을 계산한다.
Figure 112006072794144-PAT00112
상기 <수학식 6>에서
Figure 112006072794144-PAT00113
는 I번째 클러스터에 속한 관측정보들의 개수,
Figure 112006072794144-PAT00114
는 현재의 ⅰ번째 클러스터에 속하는 m번째 관측정보, 그리고
Figure 112006072794144-PAT00115
는 현재 코드북의 ⅰ번째 코드벡터이다.
도 4의 409 단계에서 클러스터기는 각 클러스터에 포함된 관측 정보들의 이전 왜곡 값과 현재 왜곡 값을 이용하여 아래<수학식 7>의 종료 조건을 만족하는지 판단한다.
Figure 112006072794144-PAT00116
상기 <수학식 7>은 종료 조건을 나타낸 식이고,
Figure 112006072794144-PAT00117
는 매우 작은 값으로써 실험 값이다.
상기 409 단계에서 상기 <수학식 7>의 종료 조건을 만족하는 경우, 411 단계로 진행한다. 상기 411 단계에서 클러스터기는 아래 <수학식 8>과 같은 클러스터링 정보를 출력한다.
Figure 112006072794144-PAT00118
상기 <수학식 8>에서 는 상태 클러스터의 개수이고,
Figure 112006072794144-PAT00120
는 혼합 클러스터의 개수이다.
상기 409 단계에서 종료 조건을 만족하지 않는 경우, 현재의 왜곡 값과 클러스터링 코드북을 저장하여 다시 405 단계로 진행한다. 그리고 상기 저장한 현재의 왜곡 값과 클러스터링 코드북은 다음 클러스터링 수행시 이전 왜곡 값 및 이전 클러스터링 코드북으로 적용하여 사용한다.
다시 도 3의 HMM 파라미터를 생성하는 방법을 설명하기로 한다.
도 3의 311 단계에서 HMM 파라미터 결정기(219)는 상기 상태 클러스터 (
Figure 112006072794144-PAT00121
)와 혼합 클러스터 (
Figure 112006072794144-PAT00122
)에서 출력된 클러스터링 정보를 이용하여 HMM 파라미터의 초기 값(
Figure 112006072794144-PAT00123
)를 계산한다. 상기 초기 값(
Figure 112006072794144-PAT00124
) 중, 상태 초기 확률(
Figure 112006072794144-PAT00125
)은 상태
Figure 112006072794144-PAT00126
에 있는 관측정보 개수를 총 관측정보 개수로 나누어서 계산한다. 그리고 상태 천이 확률(
Figure 112006072794144-PAT00127
)는 상태
Figure 112006072794144-PAT00128
를 포함함한 모든 상태
Figure 112006072794144-PAT00129
로 천이하는 관측정보 개수를 상태
Figure 112006072794144-PAT00130
로부터
Figure 112006072794144-PAT00131
가 아닌 다른 상태로 천이하는 총관측정보 개수로 나누어서 계산한다. 또한 상태
Figure 112006072794144-PAT00132
에서의 관측정보 확률을 계산하기 위해서 사용되는
Figure 112006072794144-PAT00133
Figure 112006072794144-PAT00134
상태에서
Figure 112006072794144-PAT00135
번째 혼합을 가지는 관측정보 개수를
Figure 112006072794144-PAT00136
상태에 있는 총 관측정보 개수로 나누어서 계산한다.
Figure 112006072794144-PAT00137
Figure 112006072794144-PAT00138
상태이고,
Figure 112006072794144-PAT00139
번째 혼합에 속하는 관측정보의
Figure 112006072794144-PAT00140
번째 벡터 성분,
Figure 112006072794144-PAT00141
들을 모두 더한 결과를
Figure 112006072794144-PAT00142
상태,
Figure 112006072794144-PAT00143
번째 혼합에 속하는 총 관측정보 개수로 나누어서 계산한다. 마지막으로
Figure 112006072794144-PAT00144
는 아래 <수학식 9>를 이용하여 계산한다.
Figure 112006072794144-PAT00145
상기 <수학식 9>에서
Figure 112006072794144-PAT00146
Figure 112006072794144-PAT00147
상태에서
Figure 112006072794144-PAT00148
번째 혼합을 가지는 관측정보의 총 개수를 가리킨다.
상기 311 단계에서 HMM 파라미터의 초기 값을 계산하는 과정에서, 관측정보로 협대역 관측정보 뿐만 아니라 손실대역 관측정보도 사용되므로 관측정보 벡터는 아래 <수학식 10>과 같이 나타낼 수 있다.
Figure 112006072794144-PAT00149
상기 <수학식 10>에서
Figure 112006072794144-PAT00150
Figure 112006072794144-PAT00151
는 각각 차수가
Figure 112006072794144-PAT00152
인 협대역 관측정보 벡터가 차수가
Figure 112006072794144-PAT00153
인 손실대역 관측정보 벡터를 가리킨다.
상기 <수학식 10>을 이용하여 상기 <수학식 2>는 아래 <수학식 11>로 변환된다.
Figure 112006072794144-PAT00154
상기 <수학식 11>에서 손실대역 관측정보 특성을 반영하는 우변 항은 HMM 상태와 코드벡터간의 일대일 대응을 반영하는 제안된 클러스터링 기법에 의하여 각각의 상태에 대해서 하나의 평균 값과 분산 값을 갖는다. 따라서 상기 <수학식 11>은 아래 <수학식 12>와 같이 변환이 가능하다. 이와 같이
Figure 112006072794144-PAT00155
확률이 혼합 성 분에 대해 독립적이다. 즉, 각 상태에 대해 평균 값과 분산 값이 하나이므로 HMM 파라미터의 초기 값을 결정하는 과정에서 계산량을 줄일 수 있다.
Figure 112006072794144-PAT00156
다음으로 도 3의 313 단계에서 HMM 파라미터 재평가기(221)는 협대역 관측정보({
Figure 112006072794144-PAT00157
}), 손실대역 관측정보({
Figure 112006072794144-PAT00158
})와 초기 값(
Figure 112006072794144-PAT00159
)을 Baum-Welch 재평가 알고리즘을 사용하여 최적의
Figure 112006072794144-PAT00160
(
Figure 112006072794144-PAT00161
)값으로
Figure 112006072794144-PAT00162
을 출력한다. 상기 313 단계에서 수행되는 HMM 파라미터의 재평가 과정은 아래 도 5을 참고하여 상세히 설명하기로 한다.
도 5은 도 3에서 HMM 파라미터의 재평가 방법을 나타낸 순서도이다.
도 5의 501 단계에서 HMM 파라미터 재평가기(221)는 상기 도 3의 311 단계에서 출력된 HMM 파라미터 초기 값을 입력받는다. 503 단계에서 HMM 재평가기(221)는 새로운 HMM 파라미터(
Figure 112006072794144-PAT00163
)을 재평가하기 위해 상기 이전의 HMM 파라미터 값 (
Figure 112006072794144-PAT00164
)(초기 수행 시, 상기 501 단계에서 입력받은 초기 값(
Figure 112006072794144-PAT00165
)) 뿐만 아니라 협대역 관측정보({
Figure 112006072794144-PAT00166
}), 손실대역 관측정보({
Figure 112006072794144-PAT00167
})를 Baum-Welch 재평가 알고리즘에 적용하여 HMM 파라미터를 재평가 한다. 그리고 상기 적용되는 관측정보 확률은 상기 <수학식 11>에서 상기 <수학식 12>로 변환이 가능하므로, 상기 <수학식 12>의 협대역 관측정보 확률 및 손실대역 관측정보 확률 결과가 Baum-Welch 재평가 알고리즘에 적용되어 계산량을 감소할 수 있다.
도 5의 505 단계에서 HMM 파라미터 재평가기(221)는 새로운 HMM 파라미터(
Figure 112006072794144-PAT00168
)를 이용하여 새로운 HMM 파라미터 확률(
Figure 112006072794144-PAT00169
)을 계산한다. 그리고 507 단계에서 HMM 파라미터 재평가기(221)는 아래 <수학식 13>의 종료조건을 만족하면 상기 새로운 HMM 모델(
Figure 112006072794144-PAT00170
)을 최적의 HMM 파라미터라고 판단하여 509 단계로 진행하여 재평가된 HMM파라미터를 출력한다. 반대로, 507 단계에서 HMM 재평가기(211)는 종료조건을 만족하지 않으면 503 단계로 진행하여 다시 HMM 파라미터 재평가를 수행한다.
Figure 112006072794144-PAT00171
본 발명은 음성 대역폭을 확장하기 위해 협대역 및 손실대역 관측정보를 이용하여 HMM 파라미터를 생성하는 방식으로 손실대역의 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행할 수 있다. 따라서 본 발명은 광대역 성도성분 코드북을 구성하는 각각의 코드벡터와 HMM 상태간의 일대일 대응을 유지하고, 코드벡터 수가 불필요하게 증가하는 것을 방지함과 동시에 계산량을 감소시킬 수 있다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상 설명한 바와 같이 본 발명에 의하면 음성 대역폭을 확장하기 위해, 손실대역 관측정보를 이용하여 상태 클러스터링을 수행하고, 협대역의 관측정보를 이용하여 혼합 클러스터링을 수행하여, HMM 코드북을 구성하는 각각의 코드벡터와 HMM 상태간의 일대일 대응을 유지하고, 코드벡터 수가 불필요하게 증가하는 것을 방지함과 동시에 계산량을 감소시킬 수 있다.

Claims (8)

  1. 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 장치에 있어서,
    상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터기와,
    상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터기와,
    상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하고, 상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 생성기를 포함함을 특징으로 하는 HMM 파라미터 생성 장치.
  2. 제 1 항에 있어서,
    상기 상태 클러스터기는
    군집분석 알고리즘을 이용하여 상기 손실대역 관측정보를 상기 상태 클러스터링함을 특징으로 하는 HMM 파라미터 생성 장치.
  3. 제 1 항에 있어서,
    상기 혼합 클러스터기는
    군집분석 알고리즘을 이용하여 상기 협대역 관측정보를 상기 혼합 클러스터링함을 특징으로 하는 HMM 파라미터 생성 장치.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 군집분석 알고리즘은
    K-means 알고리즘을 이용함을 특징으로 하는 HMM 파라미터 생성 장치.
  5. 음성 대역폭을 확장하기 위하여 음성 프레임의 관측정보를 이용하는 히든 마코프 모델(Hidden Markov Model : HMM) 파라미터 생성 방법에 있어서,
    상기 음성 프레임의 손실대역 관측정보를 상태 클러스터링하는 상태 클러스터링 과정과,
    상기 음성 프레임의 협대역 관측정보를 혼합 클러스터링하는 혼합 클러스터링 과정과,
    상기 상태 클러스터링된 상태 클러스터 및 상기 혼합 클러스터링된 혼합 클러스터를 이용하여 HMM 파라미터의 초기 값을 결정하는 HMM 파라미터 초기 값 결정 과정과,
    상기 결정된 초기 값이 최적의 HMM 파라미터인지 재평가하는 HMM 파라미터 재평가 과정을 포함함을 특징으로 하는 HMM 파라미터 생성 방법.
  6. 제 5 항에 있어서,
    상기 상태 클러스터링 과정은
    군집분석 알고리즘을 이용하여 상기 손실대역 관측정보를 상기 상태 클러스터링함을 특징으로 하는 HMM 파라미터 생성 방법.
  7. 제 5 항에 있어서,
    상기 혼합 클러스터링 과정은
    군집분석 알고리즘을 이용하여 상기 협대역 관측정보를 상기 혼합 클러스터링함을 특징으로 하는 HMM 파라미터 생성 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 군집분석 알고리즘은
    K-means 알고리즘을 이용함을 특징으로 하는 HMM 파라미터 생성 방법.
KR1020060097970A 2006-10-09 2006-10-09 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법 KR20080032348A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060097970A KR20080032348A (ko) 2006-10-09 2006-10-09 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060097970A KR20080032348A (ko) 2006-10-09 2006-10-09 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20080032348A true KR20080032348A (ko) 2008-04-15

Family

ID=39533118

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060097970A KR20080032348A (ko) 2006-10-09 2006-10-09 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20080032348A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011128723A1 (en) * 2010-04-12 2011-10-20 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011128723A1 (en) * 2010-04-12 2011-10-20 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
Anastasakos et al. Speaker adaptive training: A maximum likelihood approach to speaker normalization
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP3742236B2 (ja) 音声認識のための隠れマルコフ・モデルの適応技術
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
EP2017832A1 (en) Voice quality conversion system
JPH11242494A (ja) 話者適応化装置と音声認識装置
JP3189598B2 (ja) 信号合成方法および信号合成装置
Stuttle A Gaussian mixture model spectral representation for speech recognition
JP4817250B2 (ja) 声質変換モデル生成装置及び声質変換システム
KR100937101B1 (ko) 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치
KR101026632B1 (ko) 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체
US7707029B2 (en) Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition
EP1995723A1 (en) Neuroevolution training system
JP2006521576A (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
Bauer et al. A statistical framework for artificial bandwidth extension exploiting speech waveform and phonetic transcription
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
Chaudhari et al. Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition
US7454338B2 (en) Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition
JP3039623B2 (ja) 音声認識装置
KR20080032348A (ko) 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
JP3144341B2 (ja) 音声認識装置
Orphanidou et al. Voice morphing using the generative topographic mapping

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination