KR20050063986A - 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 - Google Patents
고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 Download PDFInfo
- Publication number
- KR20050063986A KR20050063986A KR1020030095245A KR20030095245A KR20050063986A KR 20050063986 A KR20050063986 A KR 20050063986A KR 1020030095245 A KR1020030095245 A KR 1020030095245A KR 20030095245 A KR20030095245 A KR 20030095245A KR 20050063986 A KR20050063986 A KR 20050063986A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- eigenvoice
- speech
- coefficient
- dependent
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000001419 dependent effect Effects 0.000 claims abstract description 51
- 230000006978 adaptation Effects 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/37—Decoding methods or techniques, not specific to the particular type of coding provided for in groups H03M13/03 - H03M13/35
- H03M13/39—Sequence estimation, i.e. using statistical methods for the reconstruction of the original codes
- H03M13/41—Sequence estimation, i.e. using statistical methods for the reconstruction of the original codes using the Viterbi algorithm or Viterbi processors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 전화망 음성인식 시스템에 있어서 EigenVoice 계수 값을 미리 등록하고, 인식 단계에서 화자종속 음향모델을 생성하여 화자종속 음성인식을 수행할 수 있도록 하는 것으로, 입력된 화자 ID로부터 해당 화자의 등록된 EigenVoice 계수값을 읽어들여 화자종속 음향모델을 생성하는 제 1단계; 및 상기 생성된 화자종속 음향모델을 이용하여 화자의 음성신호로부터 추출된 음성특징에 대해 인식대상 어휘로 구성된 탐색공간을 탐색하여 등록화자의 최종 음성인식을 수행하는 제 2단계;를 통해 화자의 음성을 인식할 수 있도록 하는 EigenVoice 계수를 이용한 화자종속 음성인식 시스템 및 방법에 관한 것이다.
Description
본 발명은 전화망 음성인식 시스템에 있어서 EigenVoice 계수 값을 미리 등록하고, 인식 단계에서 화자종속 음향모델을 생성하여 화자종속 음성인식을 수행할 수 있도록 하는 EigenVoice 계수를 이용한 화자종속 음성인식 시스템 및 방법에 관한 것이다.
일반적으로, 전화망 음성인식 시스템은 불특정 화자를 대상으로 음성인식을 수행하게 된다. 따라서, 많은 훈련 화자로부터 음성 데이터를 수집하여 화자 독립의 음향모델을 훈련하게 되는데, 이를 화자독립 음성인식 시스템이라고 한다.
화자독립 음성인식 시스템은 특정화자의 음성데이터로 훈련한 화자종속 음향모델을 사용하는 화자종속 음성인식 시스템에 비해 그 성능면에서 우수하지 못하다. 이와같은 화자독립 음성인식 시스템의 성능개선을 위하여 화자적응 기술을 사용한다.
음성인식 시스템은 불특정 다수로부터 걸려오는 전화에 대해 서비스를 수행하기 때문에 서비스 상황에서 화자의 음성 신호를 이용하여 화자적응을 수행하게 되는데, 이때 음성인식 시스템은 사용자가 발성한 음성이 무엇인지 모르기 ??문에 비교사 학습 방법에 의한 화자적응을 수행하게 되고, 이로 인해 화자적응 성능이 떨어지게 된다.
반면, 증권 또는 금융 거래 전화망 음성인식 시스템은 특정 화자가 음성인식 시스템에 미리 등록을 한 후 이용하게 되는데, 이 음성인식 시스템은 최상의 인식 성능을 얻기 위해 화자 등록 단계에서 화자적응을 수행하여 생성된 음향모델을 사용자마다 저장하고, 서비스 상황에서 해당 화자의 화자종속 음향모델을 읽어 들여 사용함으로써 음성인식 성능을 향상시킬 수 있다.
이와 같이 화자 등록 단계에서 화자종속 음향모델을 생성하는 화자종속 음성인식 시스템은 음성인식 시스템에서 발성할 음성을 미리 제시하고, 이를 이용한 교사 학습 화자적응을 수행하여 화자적응 성능을 향상시킬 수 있는 장점을 가지고 있어, 실제 화자 등록 음성인식 시스템에 적합한 방법이지만 화자종속 음향모델을 등록 화자 개수만큼 저장하고 있어야 하므로, 등록 화자가 늘어날 경우 이에 비례하여 많은 저장공간이 요구되는 문제점을 가지고 있다.
본 발명은 상기와 같은 종래의 문제점을 해결하기 위한 것으로, 본 발병의 목적은 화자 등록 음성인식 시스템에서 화자 등록단계에서 EigenVoice 화자적응을 통해 화자종속 음향모델을 생성함으로써 상대적으로 적은 저장공간만을 필요로 하는 EigenVoice 계수를 이용한 화자종속 음성인식 시스템 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 EigenVoice 화자적응을 이용한 화자등록 방법은 미리 정해진 문장을 발성하는 화자의 발성음으로부터 화자적응에 사용할 음성의 특징벡터를 추출하기 위한 음성벡터 추출단계; 추출된 음성 특징 벡터로부터 Viterbi 디코딩을 수행하여 시간정열 정보를 구하는 화자음성 디코딩단계; Viterbi 디코딩 결과로 구해지는 시간정열 정보를 이용하여 EigenVoice 화자적응을 수행하기 위한 관측 데이터를 누적하는 관측정보 누적단계; 누적된 관측 정보와 미리 훈련한 EingeVoice(고유음성) 들을 통해 해당 화자에 가까운 음향모델을 생성할 수 있도록 EigenVoice 화자적응 방법에 의해 EigneVoice 계수를 예측하는 EigenVoice 계수 예측단계; 및 상기 EigenVoice 계수 예측단계에서 예측된 EigenVoice 계수를 화자등록 DB에 화자ID 별로 EigenVoice 계수를 등록하는 화자 EigenVoice 계수 등록단계;를 통해 EigenVoice 화자적응을 이용한 화자등록을 실행한다.
상기 목적을 달성하기 위한 본 발명의 EigenVoice 계수를 이용한 화자종속 음성인식 시스템은 화자의 Call ID 및 화자의 EigenVoice 계수가 등록된 화자등록 모듈; 화자 ID가 입력될 경우 상기 화자등록 모듈에 등록된 등록화자의 EigenVoice 계수와 EigenVoice(고유음성) 들을 이용하여 화자적응 음향모델을 생성하는 화자종속 음향모델 생성모듈; 입력된 화자음성신호로부터 음성의 특징부분을 추출하는 음성특징 추출모듈; 및 상기 음성특징 추출모듈에서 추출된 음성특징과 상기 화자종속 음향 모델 생성모듈에서 생성된 화자적응 음향모델을 이용하여 인식대상 어휘로 구성된 탐색공간을 탐색하여 등록화자의 최종 음성 인식결과를 출력하는 탐색모듈;을 포함하는 것을 특징으로 한다.
상기 화자등록 모듈은, 화자의 발성음으로부터 화자적응에 사용할 음성의 특징벡터를 추출하기 위한 음성벡터 추출부; 추출된 음성신호의 특징벡터로부터 시간정렬정보를 찾기 위한 Viterbi 디코딩을 수행하는 화자음성 디코딩부; Viterbi 디코딩된 시간정렬 정보를 이용하여 EigenVoice 화자적응을 수행하기 위한 관측 정보로 누적하는 관측정보 누적부; 상기 관측정보 누적부에서 누적된 관측 정보와 미리 훈련한 EingeVoice(고유음성)들을 통해 해당 화자에 가까운 음향모델을 생성하기 위해 EigenVoice 화자적응 방법을 사용하여 EigneVoice 계수를 예측하는 EigenVoice 계수 예측부; 및 상기 EigenVoice 계수 예측부에서 예측된 EigenVoice 계수를 화자등록 DB에 화자ID 별로 EigenVoice 계수를 등록하는 화자 EigenVoice 계수 등록부;로 이루어진다.
상기 목적을 달성하기 위한 본 발명의 EigenVoice 계수를 이용한 화자종속 음성인식 시스템을 이용한 화자종속 음성 인식방법은 입력된 화자 ID로부터 해당 화자의 등록된 EigenVoice 계수값을 읽어들여 화자종속 음향모델을 생성하는 제 1단계; 및 상기 생성된 화자종속 음향모델을 이용하여 화자의 음성신호로부터 추출된 음성특징을 인식대상 어휘로 구성된 탐색공간을 탐색하여 등록화자의 최종 음성인식을 수행하는 제 2단계;를 포함한다.
상기 제 1단계는, 음성인식 서비스를 위해 연결한 화자의 화자 ID 또는 call ID 정보로부터 해당 화자를 검색하는 단계; 화자 ID를 이용하여 화자등록 DB에서 해당 화자의 EigenVoice 계수값을 읽어들이는 단계; 읽어들인 해당 화자의 EigenVoice 계수값과 EigenVoice(고유음성) 들을 이용하여, EigenVoice 화자적응 방법에 의해 화자종속 음향모델을 생성하는 단계;를 통해 화자종속 음향모델을 생성한다.
이하, 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 설명하면 다음과 같다.
도 1은 본 발명에 따른 화자 ID별로 등록된 EigenVoice 계수를 이용한 화자종속 음성인식 시스템을 보인 블록도이다.
도면을 참조하면, 본 발명의 음성인식 시스템은 화자 ID가 입력될 경우 기 등록된 등록화자의 EigenVoice 계수와 EigenVoice(고유음성) 들을 이용하여 적응음향 모델을 생성하는 화자종속 음향모델 생성모듈(30), 입력된 화자음성신호로부터 음성의 특징부분을 추출하는 음성특징벡터 추출모듈(40) 및 상기 음성특징벡터 추출모듈(40)에서 추출된 음성특징과 상기 화자종속 음향 모델 생성모듈(30)에서 생성된 적응 음향모델을 인식대상 어휘로 구성된 탐색공간을 탐색하여 등록화자의 최종 음성 인식결과를 출력하는 탐색모듈(50)로 구성된다.
이와 같이 구성된 본 발명은 등록 화자가 다이얼링하여 전화망 음성인식 시스템에 전화연결되어 통화로가 형성되면, 화자종속 음향모델 생성모듈(30)에서는 등록 화자가 입력한 ID나를 확인하거나 또는 전화번호가 등록되었을 경우에는 등록 화자의 call ID를 확인하는 것에 의해 화자의 등록 ID를 확인할 수 있다.
이처럼 화자종속 음향모델 생성모듈(30)에서는 입력된 화자 ID를 이용하여 화자등록모듈(20)에 구비된 화자등록 DB(26)에서 해당 화자가 등록한 EigenVoice 계수값을 읽어 들이고, 그 EigenVoice 계수(ci)를 이용하여, EigenVoice 화자적응 음향모델 업데이트 수학식 1에 의해 적응된 음향모델의 가우시안 함수의 평균값을 생성한다.
수학식 1에서 wi 가 EigenVoice 들을 나타내며, ci는 각 EigenVoice 들의 계수값이고, 는 화자종속 HMM 음향모델 가우시안 함수들의 평균값을 의미한다.
상기 수학식 1에서 EigenVoice(wi)는 다수의 화자로부터 훈련한 화자종속 HMM 음향모델을 일렬로 늘어놓은 벡터형태의 Super vector 들로부터 계산한 Eigen Vector를 의미한 것으로, EigenVoice(고유음성) 들을 선형 조합할 경우 새로운 적응된 HMM 음향모델을 생성할 수 있다.
이러한 과정에 의해 화자종속 음향모델이 완성되면, 음성인식 시스템(10)의 음성특징벡터 추출모듈(40)에서는 사용자의 음성신호로부터 음성특징을 추출하고, 추출된 음성특징은 탐색모듈(50)에서 화자종속 음향모델을 인식대상 어휘로 구성된 탐색공간을 탐색하는 것에 의해 등록화자의 최종 음성을 인식한다.
도 2는 본 발명에 따른 EigenVoice 화자적응을 이용한 화자등록 모듈을 구체적인 보인 블록도이다.
도면을 참조하면, 본 발명의 화자등록 시스템은 화자의 발성음으로부터 화자적응에 사용할 음성의 특징벡터를 추출하기 위한 음성특징벡터 추출부(21), 추출된 음성 특징 벡터와 발성하도록 제시한 문장을 이용하여 관측한 특징벡터의 시간정렬(Time alignment)정보를 찾기 위한 Viterbi 디코딩하는 화자음성 디코딩부(22), Viterbi 디코딩된 화자음성으로부터 트라이폰 시간정렬(Triphone Time Alignment) 정보를 구하여 관측 음성 특징벡터를 EigenVoice 화자적응을 수행하기 위한 관측 데이터로서 누적하는 관측정보 누적부(23), 상기 관측정보 누적부에서 누적된 관측 정보와 미리 훈련한 EingeVoice 들을 통해 해당 화자에 가까운 음향모델을 생성하기 위해 EigenVoice 화자적응 방법을 사용하여 EigneVoice 계수를 예측하는 EigenVoice 계수 예측부(24) 및 상기 EigenVoice 계수 예측부에서 예측된 EigenVoice 계수를 화자등록 DB(26)에 화자ID 별로 EigenVoice 계수를 등록하는 화자 EigenVoice 계수 등록부(25)로 구성된다.
이하, 본 발명에 따른 EigenVoice 화자적응을 이용한 화자등록 방법을 도 3을 참조하여 설명한다.
도면을 참조하면, 본 발명을 개시하기 위해 전화망 음성인식 시스템에 등록할 화자의 ID를 등록하면 전화망 음성인식 시스템(10)에서는 해당 화자의 ID를 등록하고(S101), 여기서 화자가 특정 전화만을 사용할 경우에는 화자 ID와 함께 전화번호를 같이 등록하여 Call ID 만으로 등록화자를 확인할 수 있도록 하는 것이 바람직하다.
음성인식 시스템에 ID가 등록된 화자는 교사 학습을 통한 화자적응을 수행하기 위하여 미리 정해진 문장을 듣고 그 문장을 발성한다.(S102)
이후, 음성인식 시스템의 화자 등록 장치는 음성 신호로부터 화자적응에 사용할 음성의 특징벡터를 추출한다.(S103)
그리고, 추출된 음성 특징 벡터와 발성하도록 제시한 문장을 이용하여 관측한 특징벡터의 시간정렬(Time alignment)정보를 찾기 위한 Viterbi 디코딩 과정을 수행한다.(S104)
상기 104단계에서 Viterbi 디코딩 과정을 통해 트라이폰 시간정렬(Triphone Time Alignment) 정보를 구하고(S105), 구해진 트라이폰 시간정열 정보와 관측 음성 특징벡터를 EigenVoice 화자적응을 수행하기 위한 관측 데이터로서 누적한다.(S06)
그리고, 단계 106에 의해 누적된 관측 정보와 미리 훈련한 EingeVoice 들을 통해 해당 화자에 가까운 음향모델을 생성하기 위해 EigenVoice 화자적응 방법을 사용하여 EigneVoice 계수를 예측한다.(S07)
여기서 EigenVoice 들은 EigenVoice 화자적응 방법에 의해 미리 훈련되어 지는데, EigenVoice은 다양한 화자종속 음향모델 파라메터들의 Eigen Vector의 의미를 지닌다.
이후, 단계 107에서 구해진 EigenVoice 계수를 화자등록 DB에 화자ID 별로 EigenVoice 계수를 등록한다.(S108)
이상에서 본 발명의 바람직한 실시 예를 설명하였으나, 본 발명은 특정화자가 서비스를 사용하는 화자등록 음성인식 서비스에 적절하게 변형하여 동일하게 응용할 수 있음이 명확하다.
이상에서 설명한 바와 같이 본 발명은 EigenVoice 계수를 이용한 화자종속 음성인식 시스템은 기존의 방법인, 미리 정해진 음성을 발성한 후 화자적응을 수행하여, 적응된 음향모델 전체를 저장하는 방식에 비해, EigenVoice 계수값만을 저장하기 때문에 극히 적은 저장 공간을 필요로 하여 대량의 사용자를 등록해야 하는 전화망 음성인식 시스템에서 효율적으로 화자종속 음성인식 시스템을 구축할 수 있게 된다.
도 1은 본 발명의 EigenVoice 계수를 이용한 화자 종속 음성인식 시스템의 블록구성도.
도 2은 본 발명에 따른 EigenVoice 화자적응을 이용한 화자등록 모듈에 대한 구체적인 블록도.
도 3은 본 발명의 EigenVoice 화자적응을 이용한 화자등록 방법을 설명하기 위한 순서도.
* 도면의 주요 부분에 대한 부호의 설명 *
10; 화자종속 음성인식 시스템 20; 화자등록모듈
30; 화자종속 음향모델 생성모듈 40; 음성특징벡터 추출모듈
50; 탐색모듈 21; 음성특징벡터 추출부
22; 화자음성 디코딩부 23; 관측정보 누적부
24; EigenVoice 계수예측부 25; 화자 EigenVoice 계수등록부
26; 화자등록DB
Claims (5)
- 미리 정해진 문장을 발성하는 화자의 발성음으로부터 화자적응에 사용할 음성의 특징벡터를 추출하기 위한 음성벡터 추출단계;추출된 음성 특징 벡터로부터 Viterbi 디코딩을 수행하여 시간정열 정보를 구하는 화자음성 디코딩단계;Viterbi 디코딩 결과로 구해지는 시간정열 정보를 이용하여 EigenVoice 화자적응을 수행하기 위한 관측 데이터로서 누적하는 관측정보 누적단계;누적된 관측 정보와 미리 훈련한 EingeVoice들을 통해 해당 화자에 가까운 음향모델을 생성할 수 있도록 EigenVoice 화자적응 방법에 의해 EigneVoice 계수를 예측하는 EigenVoice 계수 예측단계; 및상기 EigenVoice 계수 예측단계에서 예측된 EigenVoice 계수를 화자등록 DB에 화자ID 별로 EigenVoice 계수를 등록하는 화자 EigenVoice 계수 등록단계;를 포함하는 것을 특징으로 하는 EigenVoice 화자적응을 이용한 화자등록 방법.
- 청구항 1의 EigenVoice 화자등록 방법에 의해 등록된 화자 EigenVoice 계수를 이용한 화자종속 음성인식 시스템에 있어서,화자의 Call ID 및 화자의 EigenVoice 계수가 등록된 화자등록 모듈;화자 ID가 입력될 경우 상기 화자등록 모듈에 등록된 등록화자의 EigenVoice 계수와 EigenVoice(고유음성) 들을 이용하여 화자적응 음향모델을 생성하는 화자종속 음향모델 생성모듈;입력된 화자음성신호로부터 음성의 특징부분을 추출하는 음성특징 추출모듈; 및상기 음성특징 추출모듈에서 추출된 음성특징과 상기 화자종속 음향 모델 생성모듈에서 생성된 화자종속 음향모델을 이용하여 인식대상 어휘로 구성된 탐색공간을 탐색하여 등록화자의 최종 음성 인식결과를 출력하는 탐색모듈;을 포함하는 것을 특징으로 하는 EigenVoice 계수를 이용한 화자종속 음성인식 시스템.
- 제 1항에 있어서, 상기 화자등록 모듈은,화자의 발성음으로부터 화자적응에 사용할 음성의 특징벡터를 추출하기 위한 음성벡터 추출부;추출된 음성신호의 특징벡터로부터 시간정렬정보를 찾기 위한 Viterbi 디코딩을 수행하는 화자음성 디코딩부;Viterbi 디코딩된 시간정렬 정보를 이용하여 EigenVoice 화자적응을 수행하기 위한 관측 정보로 누적하는 관측정보 누적부;상기 관측정보 누적부에서 누적된 관측 정보와 미리 훈련한 EingeVoice들을 통해 해당 화자에 가까운 음향모델을 생성하기 위해 EigenVoice 화자적응 방법을 사용하여 EigneVoice 계수를 예측하는 EigenVoice 계수 예측부; 및상기 EigenVoice 계수 예측부에서 예측된 EigenVoice 계수를 화자등록 DB에 화자ID 별로 EigenVoice 계수를 등록하는 화자 EigenVoice 계수 등록부;로 이루어진 것을 특징으로 하는 EigenVoice 계수를 이용한 화자종속 음성인식 시스템.
- 청구항 2의 EigenVoice 계수를 이용한 화자종속 음성인식 시스템을 이용한 화자종속 음성 인식방법에 있어서,입력된 화자 ID로부터 해당 화자의 등록된 EigenVoice 계수값을 읽어들여 화자종속 음향모델을 생성하는 제 1단계; 및상기 생성된 화자종속 음향모델을 이용하여 화자의 음성신호로부터 추출된 음성특징을 인식대상 어휘로 구성된 탐색공간을 탐색하여 등록화자의 최종 음성인식을 수행하는 제 2단계;를 포함하는 것을 특징으로 하는 EigenVoice 계수를 이용한 화자종속 음성인식 방법.
- 제 4항에 있어서, 상기 제 1단계는,음성인식 서비스를 위해 연결한 화자의 화자 ID 또는 call ID 정보로부터 해당 화자를 검색하는 단계;화자 ID를 이용하여 화자등록 DB에서 해당 화자의 EigenVoice 계수값을 읽어들이는 단계;읽어들인 해당 화자의 EigenVoice 계수값과 EigenVoice들을 이용하여, EigenVoice 화자적응 방법에 의해 화자종속 음향모델을 생성하는 단계;를 수행하는 것을 특징으로 하는 EigenVoice 계수를 이용한 화자종속 음성인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030095245A KR20050063986A (ko) | 2003-12-23 | 2003-12-23 | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030095245A KR20050063986A (ko) | 2003-12-23 | 2003-12-23 | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050063986A true KR20050063986A (ko) | 2005-06-29 |
Family
ID=37255644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030095245A KR20050063986A (ko) | 2003-12-23 | 2003-12-23 | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050063986A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
KR100766061B1 (ko) * | 2005-12-09 | 2007-10-11 | 한국전자통신연구원 | 화자적응 방법 및 장치 |
KR101134682B1 (ko) * | 2009-06-23 | 2012-04-09 | 한국전자통신연구원 | 화자 적응 시스템 및 그 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0953968A2 (en) * | 1998-04-30 | 1999-11-03 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on eigenvoices including maximum likelihood method |
EP1022722A2 (en) * | 1999-01-22 | 2000-07-26 | Matsushita Electric Industrial Co., Ltd. | Speaker adaptation based on eigenvoices |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
EP1103952A2 (en) * | 1999-11-29 | 2001-05-30 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for speech recognition with eigenvoice training |
US6341264B1 (en) * | 1999-02-25 | 2002-01-22 | Matsushita Electric Industrial Co., Ltd. | Adaptation system and method for E-commerce and V-commerce applications |
-
2003
- 2003-12-23 KR KR1020030095245A patent/KR20050063986A/ko not_active Application Discontinuation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0953968A2 (en) * | 1998-04-30 | 1999-11-03 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on eigenvoices including maximum likelihood method |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
EP1022722A2 (en) * | 1999-01-22 | 2000-07-26 | Matsushita Electric Industrial Co., Ltd. | Speaker adaptation based on eigenvoices |
US6341264B1 (en) * | 1999-02-25 | 2002-01-22 | Matsushita Electric Industrial Co., Ltd. | Adaptation system and method for E-commerce and V-commerce applications |
EP1103952A2 (en) * | 1999-11-29 | 2001-05-30 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for speech recognition with eigenvoice training |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
KR100766061B1 (ko) * | 2005-12-09 | 2007-10-11 | 한국전자통신연구원 | 화자적응 방법 및 장치 |
KR101134682B1 (ko) * | 2009-06-23 | 2012-04-09 | 한국전자통신연구원 | 화자 적응 시스템 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8126710B2 (en) | Conservative training method for adapting a neural network of an automatic speech recognition device | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
TWI253056B (en) | Combined engine system and method for voice recognition | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
US7319960B2 (en) | Speech recognition method and system | |
Young | HMMs and related speech recognition technologies | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
CN1162365A (zh) | 语音识别 | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
Nakagawa | A survey on automatic speech recognition | |
EP1213706B1 (en) | Method for online adaptation of pronunciation dictionaries | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
KR20050063986A (ko) | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 | |
KR20210052563A (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
Li et al. | Speaker authentication | |
US6377924B1 (en) | Method of enrolling phone-based speaker specific commands | |
Khalifa et al. | Statistical modeling for speech recognition | |
Kuo et al. | Advances in natural language call routing | |
Koo et al. | Context dependent phoneme duration modeling with tree-based state tying. | |
Timoshenko et al. | Unsupervised adaptation for acoustic language identification | |
Rose et al. | A user-configurable system for voice label recognition | |
Abad et al. | Transcription of multi-variety portuguese media contents | |
JPH10149190A (ja) | 音声認識方法及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |