KR20030061797A - 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합 - Google Patents
음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합 Download PDFInfo
- Publication number
- KR20030061797A KR20030061797A KR10-2003-7003316A KR20037003316A KR20030061797A KR 20030061797 A KR20030061797 A KR 20030061797A KR 20037003316 A KR20037003316 A KR 20037003316A KR 20030061797 A KR20030061797 A KR 20030061797A
- Authority
- KR
- South Korea
- Prior art keywords
- engine
- candidate
- word
- speech recognition
- distance
- Prior art date
Links
- 230000001419 dependent effect Effects 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000013507 mapping Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims description 21
- 238000005259 measurement Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 19
- 238000012549 training Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 7
- 229910052739 hydrogen Inorganic materials 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
- Electric Clocks (AREA)
- Toys (AREA)
- Selective Calling Equipment (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
매핑함수를 이용하여, 음성인식엔진 (104, 108, 112, 114) 를 결합하고 개별 음성인식엔진 (104, 106, 108, 112, 114)의 결과들 간의 차이를 해결하는 방법 및 시스템이다. 화자독립 음성인식엔진 (104) 과 화자의존 음성인식엔진 (106) 이 결합된다. 히든 마르코브 모델 (HMM) 엔진 (108, 114) 과 다이내믹 타임워핑 (DTW) 엔진 (104, 106, 112) 이 결합된다.
Description
I. 기술분야
본 발명은 주로 통신분야에 관한 것으로서, 보다 상세하게는, 신규하고 향상된 음성인식용 시스템 및 방법에 관한 것이다.
II. 배경기술
음성인식 (VR) 은, 의사 (simulated) 지능을 갖는 머신으로 하여금 사용자 또는 사용자의 음성 명령을 인식하게 하여, 인간과 머신과의 인터페이스를 수월하게 하는 가장 중요한 기술 중의 하나이다. 또한, VR 은 인간 음성이해를 위한 주요 기술을 나타낸다. 음향 음성신호로부터 언어 메시지를 복구하는 기술을 채용하는 시스템은 음성인식기 (voice recognizer) 라 불린다. 여기서, "음성인식기" 라는 용어는 주로 임의의 화자와 인터페이스가 가능한 장치를 의미하는데 사용된다.
안전상의 이유때문에, VR (또한, 통상, 음성인식이라 지칭함) 의 이용이 점차 중요해지고 있다. 예를 들면, VR 은 무선 전화기 키패드 상의 버튼을 누르는 수작업을 대체하는데 사용할 수 있다. 사용자가 차량운전시 통화를 개시하는 경우, 이는 특히 중요하다. VR 없이 전화기를 사용하는 경우에는, 전화를걸기 위해 버튼을 누르는 동안 운전자가 운전대로부터 한 손을 떼서 전화기 키패드를 봐야 한다. 이 행동들은 차량사고의 가능성을 증가시킨다. 음성작동되는 전화기 (즉, 음성 인식용으로 설계된 전화기) 는 운전자가 도로를 계속 관찰하면서 전화를 걸 수 있도록 한다. 또한, 핸즈프리 (hands-free) 자동차 키트 (car-kit) 시스템은 운전자로 하여금 통화 개시동안 양손을 운전대 위에 계속 놓을 수 있게 한다.
음성인식 장치는 화자의존 (speaker-dependent; SD) 장치 또는 화자독립 (speaker-independent; SI) 장치로 구분된다. 보다 흔한 화자의존 장치는 특정 사용자로부터의 명령을 인식하도록 트레이닝 (train) 된다. 이와 달리, 화자독립 장치는 임의의 사용자로부터의 음성명령을 받아들일 수 있다. 주어진 VR 시스템의 성능을 향상시키기 위해서는, 화자의존 장치이든 화자독립 장치이든, 유효 파라미터를 갖는 시스템을 구비하기 위해서 트레이닝이 요청된다. 즉, 시스템이 최적적으로 행동할 수 있기 전에 학습할 필요가 있다.
통상, 화자의존 VR 장치는 2 단계, 즉 트레이닝 단계와 인식단계로 동작한다. 트레이닝 단계에서는, VR 시스템이 사용자로 하여금 시스템 어휘 내의 단어들을 각각 1 번 또는 2 번 (통상 2 번) 말하게 하여, 이 특정 단어들 또는 어구들에 대한 사용자의 음성특색을 학습한다. 핸즈프리 차량키트용의 어휘들은, 예를 들면, 키패드 상의 디지트; "통화", "전송", "다이얼", "취소", "추가", "삭제", "히스토리", "프로그램", "예", 및 "아니오" 등의 키워드; 및 주로 통화하는 공동작업자, 친구, 또는 가족구성원 등 소정 수의 이름들을 포함한다. 일단 트레이닝이 종료하면, 인식단계에서 사용자가 트레이닝된 키워드를 말함으로써 호를 개시할 수 있으며, VR 장치는 이전에 트레이닝된 발성 (utterance; 템플릿으로서 저장됨) 과 화자의 발성을 비교하여 최적의 매칭을 취함으로써 그 키워드를 인식한다. 예를 들면, "John" 이라는 이름이 트레이닝된 이름들 중의 하나이면, 사용자는 "John 과 통화" 라는 어구를 말함으로써 John 에게 통화를 개시할 수 있다. 그 VR 시스템은 "통화" 와 "John" 이라는 단어들을 인식하여, John 의 전화번호로 사용자가 이전에 입력하였던 번호에 전화를 건다. 트레이닝을 위한 시스템 및 방법.
또한, 화자독립 VR 장치는 소정 크기 (예를 들면, 일정한 제어 단어, 0 부터 9까지의 숫자, 예 그리고 아니오) 의 미리 기록된 어휘를 포함하는 트레이닝 템플릿을 이용한다. 그 어휘내의 각각의 단어를 말하는 다수의 화자 (예를 들면, 100명) 는 기록되어야 한다.
서로다른 화자독립 VR 장치는 서로다른 결과를 낳을 수 있다. 예를 들면, 화자독립 (SI) 히든 마르코브 모델 (Hidden Markov Model; HMM) 엔진은 화자독립 다이내믹 타임 워핑 (Dynamic Time Warping; DTW) 엔진과 다른 결과를 낳을 수 있다. 이 두 엔진들의 결과를 결합하면, 단독 엔진의 결과를 이용하는 경우보다 시스템이 보다 우수한 인식정확도와 낮은 거부율을 갖는다.
화자의존 VR 과 화자독립 VR 은 서로다른 결과를 낳을 수 있다. 화자의존 엔진은 특정 사용자와 관련되는 템플릿을 이용하여 인식을 행한다. 화자독립 엔진은 사용자 집합 (ensemble) 으로부터의 표본를 이용하여 생성되는 템플릿을이용하여 인식을 행한다. 화자 특정 템플릿이 주어진 사용자의 말하기 스타일에 근접하기 때문에, SD 엔진이 SI 엔진보다 우수한 정확도를 제공한다. 그러나, SI 엔진은 사용자들이 시스템을 사용하기 전에 "트레이닝 공정" 을 거칠 필요가 없는 이점이 있다.
서로다른 형태의 엔진들을 결합하는 시스템과 방법이 요구된다. 다수의 엔진을 결합하는 것은 향상된 정확도를 제공하며 입력 음성신호에 있는 정보를 보다 많이 이용할 수 있다. VR 엔진을 결합하는 시스템과 방법이 2000년 7월 18일에 출원되고 본 발명의 양수인에게 양도된 발명의 명칭이 "Combined Engine System and Method for Voice Recognition" 인 미국 특허출원번호 제 09/618177 호에 개시되며, 여기서 참조로서 통합된다.
결정논리 VR 시스템은 발견적 (heuristic) 논리를 이용하여 결정규칙을 고안한다. 통상, 결정논리는 각 엔진의 최선 후보 (단어) 템플릿과 테스팅 발성 간의 측정된 거리로 개시한다. 예를 들면, 2 개의 엔진 (엔진 D 와 H) 이 사용된다고 가정한다. d1과 d2가 엔진 D 의 2개의 최선 후보와 테스트 발성 간의 거리를 의미하고, h1과 h2가 엔진 H 의 2 개의 최선 후보와 테스트 발성 간의 거리를 의미한다고 하자. dg와 hg는 엔진 D 와 엔진 H 각각의 "쓰레기" 템플릿과 테스트 발성 간의 거리를 의미한다고 하자. 쓰레기 템플릿은 어휘에 있지 않은 모든 단어를 나타내는데 사용된다. 결정논리는 이렇게 측정된 거리들과 일련의 소정 문턱값들 간의 일련의 비교를 포함한다. 그러나, 비교규칙과 문턱값은 시스템적으로 최적화될 수 없기 때문에, 시행착오에 의해 일부분 합성되고 조정될 필요가 있다. 이는 시간을 낭비하고 다루기 힘든 프로세스이다. 또한, 발견적 규칙이 애플리케이션에 의존일 수 있다. 예를 들면, 각 엔진에 대하여 2개의 최선 단어가 아닌 3개의 최선 단어를 이용하는 경우에는, 일련의 새로운 규칙들이 합성될 필요가 있다. 무잡음 (noise-free) 음성을 인식하는 일련의 규칙들은 잡음섞인 음성을 인식하는 규칙들과 다를 가능성이 있다.
따라서, 복수개의 서로다른 VR 엔진으로부터 서로다른 결과들을 해결하는 시스템과 방법이 요구된다.
요약
상술되는 실시예들은 음성인식용 시스템과 방법을 나타낸다. 일실시예에서는, 음성인식을 향상시키기 위해서 복수개의 음성인식엔진을 결합하는 방법이 제공된다. 그 방법은 복수개의 음성인식엔진을 매핑모듈에 결합시키는 것을 포함하는 이점이 있다. 각각의 VR 엔진이 가설 (hypothesis), 즉 단어 후보를 생성한 후, 매핑모듈이 복수개의 VR 엔진에 의해 생성되는 가설들로부터 1 개의 가설을 선택하기 위해서 매핑함수를 적용한다.
일실시예에서, 화자독립 음성인식엔진들이 결합된다. 다른 실시예에서는, 화자의존 음성인식엔진들이 결합된다. 또다른 실시예에서는, 화자독립 음성인식엔진이 화자의존 음성인식엔진과 결합된다.
일실시예에서, 화자독립 음성인식엔진은 다이내믹 타임워핑 음성인식엔진이다. 일실시예에서, 화자독립 음성인식엔진은 히든 마르코브 모델이다. 일실시예에서, 화자의존 음성인식엔진은 다이내믹 타임워핑 음성인식엔진이다. 일실시예에서, 화자의존 음성인식엔진은 히든 마르코브 모델이다.
도면의 간단한 설명
이하, 본 발명의 특징, 목적 및 이점을 첨부된 도면을 참조하여 상세히 설명하며 동일한 참조부호는 동일한 구성요소를 나타낸다.
도 1 은 3 가지 형태의 음성인식엔진를 갖는 음성인식시스템의 일 실시예를 나타낸다.
도 2 는 DTW 엔진과 HMM 엔진을 포함하는 음성인식시스템을 나타낸다.
도 3 은 2 개의 음성인식엔진을 갖는 음성인식시스템의 일실시예를 나타낸다.
상세한 설명
일실시예에서, 도 1 에 나타낸 음성인식시스템 (3) 은 고립된 단어 인식작업을 행할 수 있는, 다이내믹 타임워핑 화자 독립 (DTW-SI) 엔진 (104), 다이내믹 타임워핑 화자 의존 (DTW-SD) 엔진 (106), 및 히든 마르코브 모델 (HMM) 엔진 (108) 인 3 가지 형태의 음성인식엔진을 갖는다. 이 엔진들은, 예를 들면, 이동전화기, 개인 디지털 어시스턴트 (PDA) 등과 같은 핸드헬드 (handheld) 장치에 의해 행해지는 일상 작업에 풍부한 화자 인터페이스를 제공하기 위하여, 명령단어 인식과 숫자인식용으로 사용된다. 다른 실시예에서는, 음성인식시스템 (100) 이 DTW-SI 엔진 (104) 과 DTW-SD 엔진 (106) 을 구비한다. 또다른 실시예에서는, 음성인식시스템 (100) 이 DTW-SI 엔진 (104) 과 HMM 엔진 (108) 을 구비한다. 또다른 실시예에서는, 음성인식시스템 (100) 이 DTW-SD 엔진 (106) 과 HMM 엔진 (108) 을 구비한다. 일실시예에서, HMM 엔진 (108) 은 화자독립이다. 다른 실시예에서는, HMM 엔진 (108) 이 화자의존이다. 당업자는 임의의 기지의 VR 엔진이 사용될 수 있음을 인식할 것이다. 또다른 실시예에서는, 복수개의 다른 VR 엔진 형태가 결합된다. 엔진이 임의의 결합으로 구성될 수 있음은 당업자에게 명백하다.
일실시예에 따라서, 도 1 에 나타낸 바와 같이, 음성인식시스템 (100) 이 아날로그 디지털 컨버터 (A/D; 102), DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 을 구비한다. 일실시예에서, A/D (102) 는 하드웨어 A/D 이다. 다른 실시예에서는, A/D (102) 가 소프트웨어로 구현된다. 일실시예에서, A/D (102) 와 엔진 (104, 106, 108) 들은 1 개의 장치로서 구현된다. A/D (102) 와 엔진 (104, 106, 108) 들은 임의 개수의 장치에 구현되어 분산될 수 있다.
A/D (102) 는 DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 과 결합된다. 그 DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 은 매핑모듈 (110) 에 결합된다. 그 매핑모듈은 입력으로 엔진 (104, 106, 108) 의 출력을 취하고, 음성신호 s(t) 에 대응하는 단어를 생성한다.
음성인식시스템 (100) 은 예를 들면, 무선전화기 또는 핸즈프리 차량키트내에 주재할 수 있다. 사용자는 (도시생략) 단어 또는 어구를 말함으로써, 음성신호를 생성한다. 그 음성신호는 통상의 트랜듀서 (tranducer; 도시생략) 에 의해 전기적 음성신호, s(t) 로 변환된다. 그 음성신호, s(t) 는 A/D (102) 에제공되어, 예를 들면, 펄스부호화 변조 (PCM), A-law, 또는μ-law 와 같은 기지의 샘플링 방법에 의해 디지털화된 음성샘플로 변환된다. 일 실시예에서는, 통상, 매초 N 개의 16-비트의 음성샘플들이 있다. 따라서, 샘플링 주파수가 8,000 ㎐ 에서는 N=8000 이고, 16,000 ㎐ 에서는 N=16,000 이다.
그 음성샘플들이 DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 에 제공된다. 각각의 엔진은 음성샘플들을 처리하여, 가설들, 예들 들면, 음성신호 s(t) 에 대한 후보단어들을 생성한다. 그 후, 매핑모듈은 후보단어들을 결정공간에 매핑시켜, 음성신호 s(t) 를 가장 잘 반영하는 후보단어를 선택하기 위해서, 그 후보단어들을 평가한다.
일실시예에서는, 도 2 에 나타낸 바와 같이, 음성인식시스템이 2 개의 VR 엔진을 구비한다. 그 음성인식시스템 (100) 은 DTW 엔진 (112) 과 HMM 엔진 (114) 를 구비한다. 일실시예에서, DTW 엔진은 화자독립 VR 엔진이다. 다른 실시예에서는, DTW 엔진이 화자의존 VR 엔진이다. 일실시예에서, HMM 엔진은 화자독립 VR 엔진이다. 다른 실시예에서는, HMM 엔진이 화자의존 VR 엔진이다.
이 실시예들에서, 시스템은 DTW 와 HMM 양자 모두의 이점을 가진다. 일실시예에서는, 음성인식시스템이 입력음성신호를 인식하기 위하여 트레이닝되는 트레이닝 단계동안, DTW 와 HMM 템플릿이 명시적으로 생성된다. 다른 실시예에서는, 음성인식시스템의 통상의 사용동안, DTW 와 HMM 템플릿이 묵시적으로 생성된다. 예시적인 트레이닝 시스템과 방법이 1999년 2월 8일에 출원되고 본 발명의양수인에게 양도되어 여기서 참조되는, 발명의 명칭이 "VOICE RECOGNITION REJECTION SCHEME" 인 미국특허출원번호 제 09/248,513 호와, 1999년 1월 4일에 출원되고 본 발명의 양수인에게 양도되어 여기서 참조되는, 발명의 명칭이 "SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS" 인 미국특허출원번호 제 09/225,891 호에 개시되어 있다.
음성인식시스템의 모든 어휘에 대한 일련의 템플릿들이 플래시 메모리와 같은 임의의 통상형태의 비휘발성 저장매체에 저장된다. 이는, 음성인식시스템 (100) 의 전력이 꺼질 경우, 템플릿이 저장매체내에 잔류할 수 있게 한다. 일실시예에서, 일련의 템플릿들은 화자독립 템플릿 구축 시스템으로 구성된다. 일실시에에서, 명령단어들은 VR 엔진 어휘내에 포함된다.
DTW 기술은 당해 기술에서는 기지의 기술이며, 여기서 참조되는 Lawrence Raniner & Biign-Hwang Juang, Fudalmentals of Speech Recognition 200-238 (1993) 에 개시된다. DTW 기술에 따르면, 템플릿 데이타베이스에 저장되는 각각의 발성의 시계열에 대하여 테스트되는 발성의 시계열을 플롯 (plot) 함으로써 격자 (trellis) 가 형성된다. 그 후, 테스트되는 발성이 템플릿 데이타베이스내의 각각의 발성과, 1 번에 1 개씩 점대점으로 (예를 들면, 매 10 ㎳ 마다) 비교된다. 템플릿 데이타베이스 내의 각각의 발성에 대해서, 테스트되는 발성이 조정, 즉 "워핑" 되어, 템플릿 데이타베이스 내의 발성과 가장 유사한 매칭이 획득될 때까지, 시간상 특정 지점에서 압축되거나 확장된다. 시간상의 각각의 지점에서, 2 개의 발성이 비교되어, 그 지점에서 매칭이 선언되거나 (비용없음) 미스매칭이 선언된다. 특정 지점에서 미스매칭이 발생한 경우에는, 테스트되는 발성이 압축, 확장, 또는 필요시, 미스매칭된다. 그 프로세스는 2 개의 발성 각각에 대하여 완전히 비교될 때까지 계속된다. 다수 (통상 수천개) 의 서로 다르게 조정된 발성이 가능하다. 최저비용함수 (즉, 최소개수의 얍축 및/또는 확장 및/또는 미스매칭) 로 조정된 발성이 선택된다. 이 선택은, 비터비 (Viterbi) 디코딩 알고리즘과 유사한 방식으로, 전체비용이 가장낮은 경로를 결정하기 위해서, 템플릿 데이타베이스에서의 발성의 각 지점을 역방향으로 (backward) 관찰함으로써 행해지는 이점이 있다. 이는, 서로 다르게 조정된 발성들 중의 가능한 하나를 모두 생성하는 "브루트-포스 (brute-force)" 에 의존하지 않고도 최저비용으로 (즉, 가장 유사하게 매칭된) 조정된 발성을 결정할 수 있게 한다. 그 후, 최소비용으로 조정된 발성들이 템플릿 데이타베이스의 모든 발성에 대하여 비교되어, 테스트되는 발성에 가장 유사하게 매칭되어 저장되는 발성으로서 최소비용을 갖는 것이 선택된다.
비록 DTW 엔진 (104) 의 DTW 매칭방식과 HMM 엔진 (108) 의 비터비 디코딩은 유사하지만, 매칭 단계에서 특징 벡터를 제공하기 위해서, DTW 엔진과 HMM 엔진은 서로다른 전단 (front end) 방식, 즉 특징추출기 (feature extractor) 를 이용한다. 이러한 이유때문에, DTW 엔진과 HMM 엔진의 에러패턴은 매우 다르다. 결합엔진을 갖는 음성인식시스템은 에러 패턴들의 차이점을 활용한다. 두 엔진으로부터의 결과를 적절히 결합함으로써, 전체적으로 보다 높은 인식정확도를 획득할 수 있다. 보다 중요하게, 원하는 인식정확도에서 더욱 낮은 거부율을 획득할 수 있다.
일실시예에서는, 동일한 어휘 집합에서 동작하는 화자독립 음성인식엔진이 결합된다. 다른 실시예에서는, 화자의존 음성인식엔진이 결합된다. 또다른 실시예에서는, 화자독립 음성인식엔진이 동일한 어휘집합에서 동작하는 화자의존 음성인식엔진과 결합된다. 또다른 실시예에서는, 화자독립 음성인식엔진이 다른 어휘집합에서 동작하는 화자의존 음성인식엔진과 결합된다.
각각의 엔진은 그 어휘내의 어떤 단어가 말하여 졌는지에 관한 출력을 생성한다. 각각의 출력은 입력신호에 대한 1 개의 단어후보를 포함한다. 입력신호에 대응하지 않는 단어들은 거부된다. 예시적인 거부방식은, 여기서 참조되는 미국특허출원번호 제 09/248,513 호에 개시된다.
임베디드 (embedded) 시스템에서는 한정된 계산 자원등으로 인해서 정확한 음성인식이 어렵다. 시스템 정확도를 높이기 위해서는, 다수개의 인식 엔진을 사용하여 음성인식이 획득된다. 그러나, 서로다른 VR 엔진은 서로다른 결과를 생성할 수 있다. 예를 들면, 한 엔진이 최선의 후보단어들로 "Jane" 과 "Joe" 를 선택할 수 있는 반면, 다른 VR 엔진은 2 개의 최선 후보로 "Julie" 와 "Joe" 를 선택할 수 있다. 이 서로다른 결과들은 해결될 필요가 있다. 해답은 구해져야 하며, 즉, 1 개의 후보단어가 선택될 필요가 있다. VR 시스템은 다수개의 엔진이 작용하는 후보단어들에 기초하여 결정을 내려야 한다.
일실시예에서, X (X=2,3,...) 개의 엔진들이 결합되고, 각각의 엔진은 Y (Y=1,2,...) 개의 후보단어들을 생성한다. 따라서, X*Y 후보들 중에서 오직 하나만이 정확한 정답이다. 다른 실시예에서, 각각의 엔진은 서로다른 개수의 후보들을 생성할 수 있다.
2 개의 엔진 D 와 H 를 갖는 실시예에서, d1과 d2는 엔진 D 의 테스트 발성과 2 개의 최선 후보단어 간의 거리를 의미하며, h1과 h2는 엔진 H 의 테스트 발성과 2 개의 최선 후보단어 간의 거리를 의미한다. 변수 dg와 hg는 엔진 D 와 엔진 H 의 "쓰레기" 템플릿과 테스트 발성간의 거리를 각각 의미한다. 쓰레기 템플릿은 어휘에 있지 않은 모든 단어들을 표현하는데 사용된다.
일실시예에서, VR 엔진들에 의해 생성된 후보들로부터 1개의 후보를 선택하는 결정은 측정공간 (d1, d2,... dg와 h1, h2,..,hg) 으로부터 결정공간 (리스트 내의 단어들 중 하나로서 테스트 발성을 수용/거부) 의 매핑에 기초하여 행해진다. 일실시예에서, 매핑은 선형 매핑이다. 다른 실시예에서, 매핑은 비선형매핑이다.
일실시예에서 따라서, 도 3 은 DTW-기반 VR 엔진과 HMM-기반 VR 엔진을 갖는 장치에 의해 행해지는 방법단계들의 흐름도를 나타낸다. 단계 200 에서, 테스트 발성 (Tu) 이 획득된다. 일단 테스트 발성 (Tu) 이 획득되면, 단계 202 에서, DTW 음성인식 분석이 테스트 발성 (Tu) 에 대하여 행해지고, 단계 204 에서 HMM 음성인식분석이 테스트 발성 (Tu) 에 대하여 행해진다. 단계 206 에서, 일련의 DTW 후보단어들 (Di) 이 획득된다. 단계 208 에서, 일련의 HMM 후보단어들 (Hi)이 획득된다. 단계 210 에서, 선형매핑함수가 각각의 DTW 후보단어 (Di) 와 각각의 HMM 후보단어 (Hi) 에 적용된다. 단계 212 에서, 후보단어의 인식이 선형 매핑 결과에 기초한다. 단계 212 에서, 인식된 단어 W(Tu) 로서 최소 매핑함수값을 갖는 후보단어가 선택된다. 단계 214 에서, 인식된 단어 (W(Tu)) 의 매핑함수값이 문턱값과 비교된다. 단계 216 에서, 인식된 단어 (W(Tu)) 의 매핑함수값이 문턱값보다 작을 경우, 인식된 단어가 거부된다. 단계 218 에서는, 인식된 단어 (W(Tu)) 의 매핑함수값이 문턱값보다 크면, 인식된 단어가 수용된다.
D i Wj 는 테스트 발성 (Tu) 과 어휘내 단어들 (Wj, j=1,2,...,N) 간의 거리이다. Wj는 일련의 후보단어들이며, 여기서 인덱스 j 는 집합번호이며, N 은 집합들의 개수이다. 각각의 집합은 수개의 후보단어들을 가지며, 그 개수는 양의 정수이다. 인덱스 i 는 VR 엔진 번호이다.
또한, 각각의 VR 엔진은 테스트 발성 (Tu) 과 어휘밖의 단어 템플릿 (Wg) 간의 거리 (Dg) 를 생성한다. 어휘내 단어는 VR 엔진의 어휘내에 있는 단어이다. 어휘 밖의 단어는 VR 엔진의 어휘에 있지 않은 단어이다.
매핑함수의 결과가 문턱값보다 크면, 평가된 후보단어는 유효하고 입력이 수용된다. 그렇지 않은 경우에는, 입력이 거부된다.
표 1 은 DTW 엔진과 HMM 엔진을 갖는 일실시예에서 거리 행렬을 나타내며,각각의 엔진으로부터의 2개의 최선 단어들이 후보집합으로 선택된다. D1과 D2는 DTW VR 엔진으로부터의 2개의 최선 단어들이며, H1과 H2는 HMM VR 엔진으로부터의 2개의 최선 단어들이다.
하나의 VR 엔진은 X 거리를 생성하고 다른 VR 엔진은 Y 거리를 생성하는 2 개의 VR 엔진을 갖는 실시예에서는, 총 X*Y 개의 후보단어가 생성된다.
후보집합으로부터 단지 1 개의 단어가 인식되며, 그 인식이 거부/수용될 지를 결정한다. 일실시예에서, 선형매핑함수는 후보집합으로부터 단어를 선택하는 것과 선택 또는 거부결정을 하는 것에 모두 사용된다.
후보단어들의 각각의 집합, Wi, i=1,2,3,4 는 표 1 에 나타낸 대응 측정벡터를 갖는다.
표 1
D 는 DTW 엔진을 의미한다. H 는 HMM 엔진을 의미한다. Di Wi는 Tu와 Wi간의 거리이다. D2 Wi는 Wi를 제외한 2번째로 가장 적합한 후보에 대한 거리이다. Dg 는 Tu와 쓰레기 템플릿 간의 거리를 의미한다. H1 Wi, H2 Wi, Hg는각각 DTW 엔진에 대해 나타낸 것과 동일하다.
선형 매핑함수는 다음과 같은 형태이다.
M i (D,H)=C o +c 1 D 1 Wi +c 2 D 2 Wi + c 3 D g + c 4 H 1 Wi + c 5 H 2 Wi + c n H g , 여기서,c i (i=0,1,...,n) 는, 일실시예에서, 실수인 상수이며, 다른 실시예에서는 음성파라미터이다. 인덱스 i 의 상한은 n 이다. 상한 n 은 음성인식시스템의 VR 엔진의 개수와 각각의 VR 엔진에 대한 후보단어들의 개수의 합과 같다. 일실시예에서, 2 개의 VR 엔진과 VR 엔진당 2 개의 후보단어를 갖는 실시예에서, n=6 이다. n 의 계산은 다음과 같다.
2 개의 VR 엔진 2
제 1 VR 엔진에 대한 2 개의 후보단어들 +2
제 2 VR 엔진에 대한 2 개의 후보단어들 +2
n=6
단어인식과 단어수용을 위한 결정규칙은 다음과 같다.
1. M i (D,H) 를 최대화하는 단어가 인식되는 단어로 선택된다; 그리고
2. M i (D,H)> 0 일 경우, 인식이 수용되고, M i (D,H)≤0 일 경우, 인식은 거부된다.
매핑함수는 수용/거부의 오류 에러를 객관적으로 최소화하도록 구성되거나트레이닝된다. 일실시예에서, 상수c i (i=0,1,...,n) 는 트레이닝으로부터 획득된다. 트레이닝 처리에서, 각각의 테스트 샘플의 존재 (identity) 는 알려져 있다. 1 개의 단어 (W1, W2, W3, 및 W4) 에 대한 측정벡터는 옳음 (+1) 으로서 표시되고, 그 나머지는 그름 (-1) 으로서 표시된다. 트레이닝은 잘못 분류된 개수를 최소화하도록 c=c i (i=0,1,...,n) 계수 벡터값을 결정한다.
벡터b는 각각의 트레이닝 벡터의 옳음/그름 속성을 가리키며, W 는 각각의 행이 측정벡터D 1 Wi ,D 2 Wi , D g , H 1 Wi , H 2 Wi , h 2 , (i=0,1,..,4) 인 측정 행렬이다. 일실시예에서, c 는 W 의 의사역행렬 (pseudo-inverse) 을 계산함으로써 획득된다.
c =(W T W) -1 W T b
이 절차는 평균정방에러 (mean squre error; MSE) 를 최소화한다. 또한, 다른 실시예에서는, 총 에러 카운트를 최소화하는 것과 같은 향상된 에러최소화 절차가 계수 벡터 c 를 구하는데 사용된다. 당해 기술에 기지인 다른 에러 최소화 절차가 계수 벡터 c 를 구하는 데 사용될 수 있다.
매핑함수 방법은 다수개의 (>2) 엔진들과 다수개의 (>2) 단어후보들에 동등하게 적용될 수 있다. L 개의 VR 엔진이 있고, 각각의 엔진이 N 개의 단어후보를 생성하는 경우, 일반화된 매핑함수는 다음과 같은 형태를 갖는다.
C 0 는 문턱값 상수이다.c k l 는 VR 엔진 l 에 대한 k 번째 매핑상수이다. V(l)k Wi은 VR 엔진 l 로부터의 단어후보 Wi에 대한 k 번째 거리이다.
일실시예에서, 매핑함수는 비선형이다. 매핑함수에서 계수 대신 1 개 이상의 변수/파라미터가 사용될 수 있다. 일실시예에서, 매핑함수에 사용되는 1 개 이상의 변수/파라미터는 VR 엔진으로부터의 음성 파라미터이다. 1 개 이상의 변수/파라미터는 음성신호 s(t) 의 측정 또는 처리로부터 취해진 음성파라미터일 수 있음을 당업자는 명백히 알 수 있다.
따라서, 음성인식용 엔진을 결합하는 신규하고 향상된 방법 및 장치가 개시된다. 당업자는 여기서 개시된 실시예들과 결합하여 예증이 되는 다양한 논리블록, 모듈, 및 매핑이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 결합으로 구현될 수 있음을 인식할 것이다. 예증이 되는 다양한 구성성분, 블록, 모듈, 회로들 및 단계들이 주로 그들의 기능 측면에서 개시된다. 그 기능이 하드웨어 또는 소프트웨어로서 구현되는 지는 특정 애플리케이션과 전체 시스템에 부과된 설계한계에 의존한다. 당업자는 이 환경하에서 하드웨어와 소프트웨어의 교환가능성 및 각각의 특정 애플리케이션에 대한 상술한 기능을 얼마나 잘 구현할 수 있는가를 인식할 것이다. 예를 들면, 여기서 개시되는 실시예들과 결합하여 예증이 되는 다양한 논리블록, 모듈, 매핑들은, 일련의 펌웨어 명령, 애플리케이션 특정 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA) 또는 다른 프로그래밍이 가능한 논리 소자, 디스크리트 게이트 또는 트랜지스터 로직, 레지스터와 같은 디스크리트 하드웨어 구성성분, 임의의 통상 프로그래머블 소프트웨어 및 프로세서, 또는 여기서 설명된 기능을 수행하도록 설계된 것들과 결합하여 구현되거나 행해질 수 있다. A/D (102), VR 엔진, 및 매핑모듈 (110) 은 마이크로프로세서 내에서 행해지는 이점이 있는 한편, 임의의 통상의 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 상태 머신 (state machine) 에서 행해질 수도 있다. 템플릿은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드디스크, 리무버블 (removable) 메모리, CD-ROM 등, 또는 당해 기술에서 기지인 임의 형태의 다른 저장매체에 주재할 수 있다. 메모리 (도시생략) 는 상술한 임의의 프로세서 (도시생략) 의 구성요소일 수 있다. 프로세서 (도시생략) 와 메모리 (도시생략) 는 ASIC (도시생략) 내에 주재할 수 있다. 그 ASIC 은 전화기에 주재할 수 있다.
본 발명에 대한 실시예의 상술한 설명은 당업자로 하여금 본 발명을 제조 또는 사용할 수 있게 제공된다. 본 실시예들의 다양한 변형이 당업자에게 명백하며, 여기서 정의된 고유한 원리는 본 발명의 정신을 이용하지 않는 다른 실시예에도 적용될 수 있다. 따라서, 본 발명은 여기서 나타낸 실시예들에 한정하려는 것이 아니라, 여기서 개시된 원리와 신규한 특징에 부합하는 최광위에 부여하려는 것이다.
Claims (33)
1 개의 단어후보를 생성하도록 각각 구성되는 복수개의 음성인식 (VR) 엔진; 및
상기 복수개의 VR 엔진으로부터 상기 단어후보들을 입력으로서 취한 후 매핑함수에 기초하여 1 개의 단어후보를 선택하도록 구성되는 매핑모듈을 구비하는 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 복수개의 음성인식엔진은 화자독립 음성인식엔진을 포함하는 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 복수개의 음성인식엔진은 화자의존 음성인식엔진을 포함하는 것을 특징으로 하는 음성인식시스템.
제 2 항에 있어서,
상기 복수개의 음성인식엔진은 화자의존 음성인식엔진을 포함하는 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,
상기 화자독립 음성인식엔진 중 하나 이상은 다이내믹 타임워핑 (Dynamic Time Warping) 음성인식엔진인 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,
상기 화자독립 음성인식엔진 중 하나 이상은 히든 마르코브 모델 (Hidden Markov Model) 음성인식엔진인 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,
상기 화자의존 음성인식엔진 중 하나 이상은 다이내믹 타임워핑 음성인식엔진인 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,
상기 화자의존 음성인식엔진 중 하나 이상은 히든 마르코브 모델 인식엔진인 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 매핑함수는 상기 단어후보들을 측정공간에서 결정공간으로 선형 매핑하는 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 매핑함수는 상기 단어후보들을 측정공간에서 결정공간으로 비선형 매핑하는 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 단어후보는 단어후보 템플릿과 발성 간의 거리에 의해 표현되는 것을 특징으로 하는 음성인식시스템.
제 11 항에 있어서,
상기 매핑모듈은 각각의 VR 엔진으로부터의 각각의 거리를 계수와 승산하고 그 결과를 다른 계수 Co에 가산하여 합을 구하는 것을 특징으로 하는 음성인식시스템.
제 12 항에 있어서,
단어후보는 상기 합에 기초하여 선택되는 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 매핑함수는,
M i (F,S)=C o +c 1 F 1 Wi +c 2 F 2 Wi + c 3 F g + c 4 S 1 Wi + c 5 S 2 Wi + c n S g 이며, 여기서, F 는 제 1 음성인식엔진이고, S 는 제 2 음성인식엔진이며, F1 Wi는 발성 Tu와 후보단어 Wi간의 거리이고, F2 Wi는 Wi를 제외한 제 2 최선 후보에 대한 거리이며, Fg는 상기 발성 Tu와 쓰레기 템플릿 간의 거리를 의미하며, S1 Wi는 Tu와 Wi간의 거리이고, S2 Wi는 Wi를 제외한 제 2 최선 후보에 대한 거리이며, Sg는 Tu와 쓰레기 템플릿 간의 거리를 의미하고, ci(i=0,1,..n) 은 계수이며, 상한 n 은 VR 엔진들의 개수의 합 과 각각의 VR 엔진에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식시스템.
제 14 항에 있어서,
상기 계수는 실수 상수인 것을 특징으로 하는 음성인식시스템.
제 14 항에 있어서,
상기 계수는 음성파라미터인 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,
상기 매핑함수는,
이며,
여기서 Co는 문턱값 상수이고,c k l 는 VR 엔진 (l) 에 대한 k 번째 매핑상수이며, V(l)k Wi은 VR 엔진 (l) 로부터의 단어후보 Wi에 대한 k 번째 거리인 것을 특징으로 하는 음성인식시스템.
테스트 발성에 대한 하나 이상의 후보단어를 획득하는 단계; 및
매핑함수에 기초하여 상기 하나 이상의 후보단어로부터 인식된 단어를 선택하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
제 18 항에 있어서,
상기 매핑함수는 하나 이상의 후보단어를 측정공간에서 결정공간으로 선형매핑하는 것을 특징으로 하는 음성인식방법.
제 18 항에 있어서,
상기 매핑함수는 하나 이상의 후보단어를 측정공간에서 결정공간으로 비선형매핑하는 것을 특징으로 하는 음성인식방법.
제 18 항에 있어서,
상기 단어후보는 단어후보 템플릿과 상기 테스트 발성 간의 거리에 의해 표현되는 것을 특징으로 하는 음성인식방법.
제 21 항에 있어서,
상기 매핑함수는 각각의 거리를 계수로 승산하고, 그 결과를 다른 계수 Co와 가산하여 그 합을 생성하는 것을 특징으로 하는 음성인식방법.
제 22 항에 있어서,
인식된 단어는 상기 합에 기초하여 선택되는 것을 특징으로 하는 음성인식방법.
제 18 항에 있어서,
상기 매핑함수는,
M i (F,S)=C o +c 1 F 1 Wi +c 2 F 2 Wi + c 3 F g + c 4 S 1 Wi + c 5 S 2 Wi + c n S g 이며, 여기서, F 는 제 1 음성인식엔진이고, S 는 제 2 음성인식엔진이며, F1 Wi는 발성 Tu와 후보단어 Wi간의 거리이고, F2 Wi는 Wi를 제외한 제 2 최선 후보에 대한 거리이며, Fg는 상기 발성 Tu와 쓰레기 템플릿 간의 거리를 의미하며, S1 Wi는 Tu와 Wi간의 거리이고, S2 Wi는 Wi를 제외한 제 2 최선 후보에 대한 거리이며, Sg는 Tu와 쓰레기 템플릿 간의 거리를 의미하고, ci(i=0,1,..n) 은 계수이며, 상한 n 은 VR 엔진들의 개수의 합 과 각각의 VR 엔진에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식방법.
제 24 항에 있어서,
상기 계수는 실수 상수인 것을 특징으로 하는 음성인식방법.
제 24 항에 있어서,
상기 계수는 음성파라미터인 것을 특징으로 하는 음성인식방법.
제 18 항에 있어서,
상기 매핑함수는,
이며,
여기서 Co는 문턱값 상수이고,c k l 는 VR 엔진 (l) 에 대한 k 번째 매핑상수이며, V(l)k Wi은 VR 엔진 (l) 로부터의 단어후보 Wi에 대한 k 번째 거리인 것을 특징으로 하는 음성인식방법.
테스트 발성을 획득하는 단계;
상기 테스트 발성을 분석하는 단계;
상기 테스트 발성의 분석에 기초하여 상기 테스트 발성에 대한 하나 이상의 후보단어를 제공하는 단계;
상기 하나 이상의 후보단어에 매핑함수를 적용하는 단계;
상기 하나 이상의 후보단어의 상기 매핑함수값에 기초하여 상기 하나 이상의 후보단어로부터 하나 이상의 후보단어를 선택하는 단계; 및
상기 선택된 후보단어의 상기 매핑함수값과 문턱값을 비교하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
제 28 항에 있어서,
상기 비교에 기초하여 상기 선택된 후보단어를 수용하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
제 28 항에 있어서,
상기 비교에 기초하여 상기 선택된 후보단어를 거부하는 단계를 더 포함하는것을 특징으로 하는 음성인식방법.
서로다른 복수개의 음성인식 기술들을 이용하여, 디지털화된 발성에 기초하여 복수개의 후보단어들을 생성하는 단계; 및
매핑함수를 상기 복수개의 후보단어들에 적용하여 인식된 단어를 선택하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
제 32 항에 있어서,
상기 인식된 단어의 상기 매핑함수값과 문턱값의 비교결과에 기초하여 상기 인식된 단어를 거부하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
제 32 항에 있어서,
상기 인식된 단어의 상기 매핑함수값과 문턱값의 비교결과에 기초하여 상기 인식된 단어를 수용하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/657,760 | 2000-09-08 | ||
US09/657,760 US6754629B1 (en) | 2000-09-08 | 2000-09-08 | System and method for automatic voice recognition using mapping |
PCT/US2001/027625 WO2002021513A1 (en) | 2000-09-08 | 2001-09-05 | Combining dtw and hmm in speaker dependent and independent modes for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030061797A true KR20030061797A (ko) | 2003-07-22 |
KR100901092B1 KR100901092B1 (ko) | 2009-06-08 |
Family
ID=24638560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037003316A KR100901092B1 (ko) | 2000-09-08 | 2001-09-05 | 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합 |
Country Status (13)
Country | Link |
---|---|
US (1) | US6754629B1 (ko) |
EP (1) | EP1316086B1 (ko) |
JP (1) | JP2004518155A (ko) |
KR (1) | KR100901092B1 (ko) |
CN (1) | CN1238836C (ko) |
AT (1) | ATE344959T1 (ko) |
AU (1) | AU2001288808A1 (ko) |
BR (1) | BR0113725A (ko) |
DE (1) | DE60124408T2 (ko) |
ES (1) | ES2273885T3 (ko) |
HK (1) | HK1058428A1 (ko) |
TW (1) | TW548630B (ko) |
WO (1) | WO2002021513A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
KR101066472B1 (ko) * | 2009-09-15 | 2011-09-21 | 국민대학교산학협력단 | 초성 기반 음성인식장치 및 음성인식방법 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60120062T2 (de) * | 2000-09-19 | 2006-11-16 | Thomson Licensing | Sprachsteuerung von elektronischen Geräten |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US20040138885A1 (en) * | 2003-01-09 | 2004-07-15 | Xiaofan Lin | Commercial automatic speech recognition engine combinations |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
KR100693284B1 (ko) * | 2005-04-14 | 2007-03-13 | 학교법인 포항공과대학교 | 음성 인식 장치 |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
GB0616070D0 (en) * | 2006-08-12 | 2006-09-20 | Ibm | Speech Recognition Feedback |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
CN101256769B (zh) * | 2008-03-21 | 2011-06-15 | 深圳市汉音科技有限公司 | 语音识别装置及其方法 |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
EP3610918B1 (en) * | 2009-07-17 | 2023-09-27 | Implantica Patent Ltd. | Voice control of a medical implant |
CN102651218A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于创建语音标签的方法以及设备 |
KR101255141B1 (ko) * | 2011-08-11 | 2013-04-22 | 주식회사 씨에스 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
US9767793B2 (en) | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
DE112012007103B4 (de) * | 2012-11-05 | 2017-02-02 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
CN103065627B (zh) * | 2012-12-17 | 2015-07-29 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
US9761228B2 (en) * | 2013-02-25 | 2017-09-12 | Mitsubishi Electric Corporation | Voice recognition system and voice recognition device |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
TWI506458B (zh) | 2013-12-24 | 2015-11-01 | Ind Tech Res Inst | 辨識網路產生裝置及其方法 |
CN104103272B (zh) * | 2014-07-15 | 2017-10-10 | 无锡中感微电子股份有限公司 | 语音识别方法、装置和蓝牙耳机 |
EP3065131B1 (fr) | 2015-03-06 | 2020-05-20 | ZETES Industries S.A. | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
EP3065133A1 (fr) | 2015-03-06 | 2016-09-07 | ZETES Industries S.A. | Méthode et système pour générer une solution optimisée en reconnaissance vocale |
EP3065132A1 (fr) | 2015-03-06 | 2016-09-07 | ZETES Industries S.A. | Méthode et système de détermination de validité d'un élément d'un résultat de reconnaissance vocale |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
US10360914B2 (en) | 2017-01-26 | 2019-07-23 | Essence, Inc | Speech recognition based on context and multiple recognition engines |
WO2018147687A1 (en) * | 2017-02-10 | 2018-08-16 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice-based interaction in internet of things network system |
CN107039037A (zh) * | 2017-04-21 | 2017-08-11 | 南京邮电大学 | 一种基于dtw的孤立词语音识别方法 |
CN109767758B (zh) * | 2019-01-11 | 2021-06-08 | 中山大学 | 车载语音分析方法、系统、存储介质以及设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831551A (en) * | 1983-01-28 | 1989-05-16 | Texas Instruments Incorporated | Speaker-dependent connected speech word recognizer |
US4763278A (en) * | 1983-04-13 | 1988-08-09 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US5073939A (en) * | 1989-06-08 | 1991-12-17 | Itt Corporation | Dynamic time warping (DTW) apparatus for use in speech recognition systems |
CN1160450A (zh) | 1994-09-07 | 1997-09-24 | 摩托罗拉公司 | 从连续语音中识别讲话声音的系统及其应用方法 |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US6272455B1 (en) * | 1997-10-22 | 2001-08-07 | Lucent Technologies, Inc. | Method and apparatus for understanding natural language |
US6125341A (en) * | 1997-12-19 | 2000-09-26 | Nortel Networks Corporation | Speech recognition system and method |
US6321195B1 (en) * | 1998-04-28 | 2001-11-20 | Lg Electronics Inc. | Speech recognition method |
ITTO980383A1 (it) | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
US6275800B1 (en) * | 1999-02-23 | 2001-08-14 | Motorola, Inc. | Voice recognition system and method |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6671669B1 (en) | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
-
2000
- 2000-09-08 US US09/657,760 patent/US6754629B1/en not_active Expired - Lifetime
-
2001
- 2001-09-05 AU AU2001288808A patent/AU2001288808A1/en not_active Abandoned
- 2001-09-05 AT AT01968568T patent/ATE344959T1/de not_active IP Right Cessation
- 2001-09-05 BR BR0113725-5A patent/BR0113725A/pt not_active IP Right Cessation
- 2001-09-05 ES ES01968568T patent/ES2273885T3/es not_active Expired - Lifetime
- 2001-09-05 WO PCT/US2001/027625 patent/WO2002021513A1/en active IP Right Grant
- 2001-09-05 JP JP2002525645A patent/JP2004518155A/ja active Pending
- 2001-09-05 DE DE60124408T patent/DE60124408T2/de not_active Expired - Lifetime
- 2001-09-05 CN CNB018153631A patent/CN1238836C/zh not_active Expired - Fee Related
- 2001-09-05 KR KR1020037003316A patent/KR100901092B1/ko not_active IP Right Cessation
- 2001-09-05 EP EP01968568A patent/EP1316086B1/en not_active Expired - Lifetime
- 2001-09-07 TW TW090122242A patent/TW548630B/zh active
-
2004
- 2004-02-19 HK HK04101178A patent/HK1058428A1/xx not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
KR101066472B1 (ko) * | 2009-09-15 | 2011-09-21 | 국민대학교산학협력단 | 초성 기반 음성인식장치 및 음성인식방법 |
Also Published As
Publication number | Publication date |
---|---|
ATE344959T1 (de) | 2006-11-15 |
AU2001288808A1 (en) | 2002-03-22 |
EP1316086B1 (en) | 2006-11-08 |
CN1238836C (zh) | 2006-01-25 |
DE60124408T2 (de) | 2007-09-06 |
WO2002021513A8 (en) | 2002-06-20 |
EP1316086A1 (en) | 2003-06-04 |
TW548630B (en) | 2003-08-21 |
WO2002021513A1 (en) | 2002-03-14 |
BR0113725A (pt) | 2004-08-17 |
ES2273885T3 (es) | 2007-05-16 |
KR100901092B1 (ko) | 2009-06-08 |
US6754629B1 (en) | 2004-06-22 |
DE60124408D1 (de) | 2006-12-21 |
CN1454381A (zh) | 2003-11-05 |
HK1058428A1 (en) | 2004-05-14 |
JP2004518155A (ja) | 2004-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100901092B1 (ko) | 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합 | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
JP4202124B2 (ja) | 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置 | |
EP1936606A1 (en) | Multi-stage speech recognition | |
US20020178004A1 (en) | Method and apparatus for voice recognition | |
US7136815B2 (en) | Method for voice recognition | |
KR100698811B1 (ko) | 음성 인식 거부 방식 | |
EP1734509A1 (en) | Method and system for speech recognition | |
KR100827074B1 (ko) | 이동 통신 단말기의 자동 다이얼링 장치 및 방법 | |
JPH0997095A (ja) | 音声認識装置 | |
Kitaoka et al. | Detection and recognition of correction utterances on misrecognition of spoken dialog system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |